Frage:
Großbuchstaben gegen Kleinbuchstaben im Referenzgenom
Scott Gigante
2017-05-24 08:26:50 UTC
view on stackexchange narkive permalink

Ich verwende ein Referenzgenom für eine von NCBI heruntergeladene mm10-Maus und möchte den Unterschied zwischen Klein- und Großbuchstaben, die ungefähr gleiche Teile des Genoms ausmachen, genauer verstehen. Ich verstehe, dass N für "harte Maskierung" (Bereiche im Genom, die nicht zusammengesetzt werden konnten) und Kleinbuchstaben für "weiche Maskierung" in Wiederholungsregionen verwendet werden.

  1. Was bedeutet diese weiche Maskierung eigentlich? bedeuten?
  2. Wie sicher kann ich über die Reihenfolge in diesen Regionen sein?
  3. Was bedeutet ein Kleinbuchstabe n?
  4. ol>
Drei antworten:
#1
+25
rightskewed
2017-05-24 11:01:33 UTC
view on stackexchange narkive permalink

Was bedeutet diese weiche Maskierung eigentlich?

Ein Großteil der Sequenz in Genomen wiederholt sich. Das menschliche Genom weist beispielsweise (mindestens) zwei Drittel repetitive Elemente auf. [1]

Diese sich wiederholenden Elemente werden durch Konvertieren der Großbuchstaben in Kleinbuchstaben weich maskiert. Ein wichtiger Anwendungsfall dieser weichmaskierten Basen ist die Suche nach Homologien: Ein atatatatatat tritt tendenziell sowohl im Genom von Menschen als auch von Mäusen auf, ist jedoch wahrscheinlich nicht homolog.

Wie sicher kann ich in Bezug auf die Reihenfolge in diesen Regionen sein?

Wie Sie es in nicht weich maskierten Positionen tun können. Die Softmaskierung erfolgt nach der Bestimmung von Teilen im Genom, die sich wahrscheinlich wiederholen. Es besteht keine Unsicherheit darüber, ob eine bestimmte Basis 'A' oder 'G' ist, nur dass sie Teil einer Wiederholung ist und daher als 'a' dargestellt werden sollte.

Was bedeutet ein Kleinbuchstabe? n repräsentieren?

UCSC verwendet Tandom Repeat Finder und RepeatMasker, um potenzielle Wiederholungen weich zu maskieren. NCBI verwendet höchstwahrscheinlich TANTAN. 'N' bedeutet, dass für diese Basis keine Sequenzinformationen verfügbar sind. Das Ersetzen durch 'n' ist wahrscheinlich ein Artefakt der Wiederholungsmaskierungssoftware, bei der ein 'N' durch ein 'n' weich maskiert wird, um anzuzeigen, dass ein Teil des Genoms wahrscheinlich auch eine Wiederholung ist.

[1] http://journals.plos.org/plosgenetics/article?id=10.1371/journal.pgen.1002384

Informative Antwort, aber ich denke, es ist umstritten zu sagen, dass das menschliche Genom "(mindestens) zwei Drittel repetitive Elemente" ist; Die von Ihnen zitierte P-Wolken-Methode ist recht freizügig und die Hälfte ist eine allgemein akzeptierte Zahl. Und bei der Soft-Maskierung werden im Allgemeinen nicht alle Wiederholungen maskiert, sondern nur eingestreute Wiederholungen und Sequenzen mit geringer Komplexität. Außerdem besteht immer Unsicherheit hinsichtlich des Aufrufs der Basis und des Aufbaus von Baugruppen, insbesondere bei sich wiederholenden Sequenzen, obwohl mm10 natürlich eine der besten Baugruppen ist ...
#2
+11
Chris_Rands
2017-05-24 13:16:19 UTC
view on stackexchange narkive permalink

Die Verwendung von Klein- / Großbuchstaben und N / n Buchstaben in Genomsequenzen ist nicht vollständig standardisiert und Sie sollten immer die Spezifikation der von Ihnen verwendeten Ressource überprüfen

Kleinbuchstaben werden am häufigsten verwendet, um „weich maskierte Sequenzen“ darzustellen, eine von RepeatMasker populäre Konvention, bei der Wiederholungen (die Transposons, Retrotransposons und verarbeitete Pseudogene umfassen) eingestreut werden. Sequenzen mit geringer Komplexität sind mit Kleinbuchstaben gekennzeichnet. Beachten Sie, dass größere Wiederholungen, wie z. B. beträchtliche Tandemwiederholungen, segmentale Duplikationen und Duplikationen ganzer Gene, im Allgemeinen nicht maskiert werden.

Es gibt jedoch auch andere Verwendungszwecke für Klein- / Großbuchstaben, z. B. Ensembl haben Groß- / Kleinbuchstaben verwendet, um exonische bzw. intronische Sequenzen darzustellen.

N und n Nukleotide können „hart maskierte Sequenzen“ darstellen ”, Wo eingestreute Wiederholungen und Sequenzen mit geringer Komplexität durch N s ersetzt werden. Aber N / n s können alternativ mehrdeutige Nukleotide darstellen. Dies ist in der Tat die IUPAC -Spezifikation.

Beachten Sie auch gelegentlich ( obwohl glücklicherweise selten) X / x wird verwendet, um auch mehrdeutige Nukleotide oder „hart maskierte Sequenzen“ darzustellen.

#3
+4
Kamil S Jaron
2017-05-24 17:29:31 UTC
view on stackexchange narkive permalink
  1. Nukleotide in Kleinbuchstaben bezeichnen üblicherweise eine weiche maskierte Sequenz. Wie genau das Genom maskiert wurde, finden Sie in den FAQ von NCBI:
  2. ol>

    Sind repetitive Sequenzen in eukaryotischen Genomen maskiert?

    Wiederholte Sequenzen in eukaryotischen Genomassemblierungssequenzdateien, wie durch WindowMasker identifiziert, wurden in Kleinbuchstaben maskiert.

    Die Position und Identität der gefundenen Wiederholungen von RepeatMasker werden ebenfalls in einer separaten Datei bereitgestellt. Diese Bereiche können verwendet werden, um die Genomsequenzen zu maskieren, falls dies gewünscht wird. Beachten Sie jedoch, dass für viele weniger untersuchte Organismen keine guten Wiederholungsbibliotheken für RepeatMasker verfügbar sind.

    1. IMHO sind Regionen mit geringer Komplexität Es ist immer wahrscheinlicher, dass sie falsch zusammengesetzt werden als Sequenzen mit hoher Komplexität. Dies ist jedoch ein Problem für Nichtmodellorganismen. Ich würde vermuten, dass die Zuverlässigkeit der weich maskierten Regionen des Mausgenoms sehr hoch sein wird.

    2. Keine Ahnung, sieht aus wie ein Artefakt.

    3. ol >

      Ein Beispiel für die Verwendung der weichen Maske

      Die Zuordnung der Sequenz zur Referenz beginnt normalerweise mit perfekten Übereinstimmungen der Seeds (Teilzeichenfolgen) der zugeordneten Lesevorgänge und der Referenzsequenz. Weich maskierte Regionen (mit geringer Komplexität) werden nicht für Übereinstimmungen von Samen verwendet, sondern nur für die Erweiterung der Ausrichtung, wenn sich in einer benachbarten Region ein Samen befand. Diese Anwendung der Softmaskierung, die auf das Problem der langen Lesebaugruppe angewendet wird, wird in diesem Blog beschrieben.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...