Frage:
Warum ergibt die Gesamt-RNA-Sequenz normalerweise eine niedrige Kartierungsrate?
kaka01
2017-11-21 16:54:44 UTC
view on stackexchange narkive permalink

Vielleicht ist dies eine dumme Frage, aber ich frage mich wirklich, warum wir normalerweise niedrige Kartierungsraten erhalten, wenn wir die gesamte RNA-Sequenz abbilden, aber nicht mit Poly (A) angereichert (insbesondere für Menschen, Mäuse und Zebrafische) Datensätze)?

Enthält die Genom-Fasta-Datei nicht auch ribosomale RNAs (die in den gesamten RNA-seq-Bibliotheken häufig erwartet werden)?

Ich habe keine Zahlen für das Menschenrecht Jetzt, aber ich erinnere mich, dass ich zuvor auch niedrige Zuordnungsraten für menschliche Daten hatte. Was mich im Moment ausgelöst hat, ist tatsächlich, als ich Zebrafischdaten kartierte. Ich habe ungefähr 60% Kartierung auf das Genom und 45% auf das Transkriptom mit einem Datensatz und 36% - 35% mit einem anderen Datensatz erhalten (beachten Sie, dass diese aus 2 verschiedenen Studien stammen und beide Gesamt-RNA-seq sind, Kartierung wurde mit STAR und durchgeführt Lachs, der seine eigenen Methoden hat).

Dies kann auch passieren, wenn Sie anstelle der Genomsequenz eine Transkriptomsequenz zuordnen, da aus unverarbeiteter mRNA und nicht annotierten nichtkodierenden RNAs eine Menge Intronsequenz vorhanden sein kann
Vier antworten:
Tom
2017-11-21 19:40:51 UTC
view on stackexchange narkive permalink

Eine wahrscheinliche Erklärung ist, dass die gesamte RNA-Seq einen hohen Anteil an Lesevorgängen von ribosomalen RNAs enthält. Ribosomale RNAs sind in mehreren Kopien im gesamten Genom vorhanden, daher werden viele Lesevorgänge mehreren genomischen Stellen zugeordnet und vom Aligner verworfen. Beispielsweise betrachtet STAR mit Standardparametern einen Lesevorgang als nicht zugeordnet, wenn er mehr als 10 Genomloci zugeordnet ist (dieses Verhalten kann mit der Option --outFilterMultimapNmax geändert werden). Um zu bestätigen, ob dies tatsächlich der Fall ist können Sie die Anzahl der Multi-Mapping-Lesevorgänge in den Protokolldateien des Aligners überprüfen.

Ich habe versucht, die Anzahl der zulässigen Multimapping-Lesevorgänge zu erhöhen, und tatsächlich hat die Anzahl der Lesevorgänge, die mehreren Loci zugeordnet sind, zugenommen, wenn auch geringfügig (6,92% auf 7,50%). Die meisten nicht zugeordneten werden in "zu kurz" (in STAR) eingeteilt. Haben Sie irgendwelche Ideen, was das sind (nun, es bezieht sich auf meine ursprüngliche Frage, da dies auch bei Lachs passiert)?
Schneiden Sie Adapter aus den Lesevorgängen vor dem Mapping ab? Das könnte die vielen "zu kurzen" Lesungen erklären. Schauen Sie sich auch dieses Problem im Github-Repo von STAR an: https://github.com/alexdobin/STAR/issues/169
@kaka01 Wenn die Berücksichtigung von Multi-Mapping Ihr Problem nicht löst, liegt möglicherweise einfach ein Fehler mit Ihren Daten vor: Bei hochwertigen Datensätzen sollte die Zuordnung der Gesamt-RNA zu einer genomischen Referenz in der Regel> 80% der zugeordneten Lesevorgänge ergeben. Viele "zu kurze" Abbildungen können auf RNA-Fragmente hinweisen. Haben Sie vor der Sequenzierung eine Größenauswahl durchgeführt?
Tom: Vor dem Mapping wurde kein Zuschneiden durchgeführt. @Konrad Die Größe der Bibliotheken wurde nicht ausgewählt. Ihre Erklärung ist sinnvoll, da die Ausrichtung der nicht zugeordneten Lesevorgänge auf die Sammlung von rRNAs eine hohe Zuordnungsrate ergab (was ein Zeichen dafür ist, dass es sich tatsächlich um rRNAs handelt). Ich bin mir immer noch nicht sicher, warum STAR sie als zu kurz eingestuft hat, vielleicht muss ich einfach mehr mit den Parametern herumspielen.
@kaka01 „Zu kurz“ bedeutet hier einfach, dass STAR den Lesevorgang nicht mit hoher Qualität ausrichten kann: entweder weil der anfängliche Lesevorgang (nach dem Trimmen) so kurz ist, dass er praktisch überall mit der Referenz übereinstimmen kann (<~ 14 Basen für so etwas wie den Menschen) Genom) haben wir also wenig Vertrauen in den richtigen Ursprung. Oder weil STAR bei Ausführung mit `--alignEndsType Local` (Standardeinstellung) nur einen kleinen Teil des Lesevorgangs abgleichen kann (was dann zum ersten Problem zurückführt).
@kaka01 Da Sie keine Größenauswahl getroffen haben, ist es möglich, dass Sie eine große Anzahl kurzer Fragmente haben und am Ende den Adapter sequenzieren. Sie können versuchen, den Adapter zu kürzen und die Lesevorgänge erneut zuzuordnen. Dies kann helfen, das Problem zu beheben, da in STAR die minimale zugeordnete Länge ein Bruchteil der gesamten Leselänge ist.
@KonradRudolph in Ihrer Antwort sagen Sie, dass die gemischte Bibliothek von kurzer und langer RNA nicht gut durch die gesamte Fragmentlänge zu laufen scheint. Ich war mir dieses Problems nicht bewusst. Wissen Sie, warum dies der Fall ist? (Entschuldigung für den Kommentar hier, ich habe nicht genug Ruf, um zu kommentieren, dass Sie direkt antworten)
@Tom Reden wir offline (sind Sie heute Abend im RNA-Club? Ich werde teilnehmen.) Kurz gesagt, ich habe keine Bestätigung, aber es ist das, was wir beobachten, und ich finde es angesichts der Chemie nicht unplausibel.
Devon Ryan
2017-11-21 20:05:12 UTC
view on stackexchange narkive permalink

Insbesondere bei Mäusen kann dies passieren, wenn die Ribo-Depletion nicht besonders effizient war, da das Referenzgenom keine Rn45s-Sequenz enthält. Dies kann in Kombination mit zahlreichen Kopien von tRNAs, 5S-rRNAs usw., die Probleme mit Multimappern verursachen (siehe die Antwort von @Tom), die Alignment-Raten stark verringern.

Beachten Sie, dass das menschliche Referenzgenom einige Kopien von enthält die 45S (z. B. auf GL000220.1 und chr21), so dass diese Lesevorgänge alle Multimap (möglicherweise zu oft). Ich weiß nichts über das Zebrafisch-Referenzgenom.

Konrad Rudolph
2017-11-23 16:52:13 UTC
view on stackexchange narkive permalink

Wenn Sie RNA aus frisch geernteten Geweben unter geeigneten Bedingungen sequenzieren, sollten Sie im Allgemeinen mit> 50% kartierten Lesevorgängen rechnen. Tatsächlich würde alles, was zu 80% < ist, normalerweise Bedenken aufwerfen.

Aus Ihrer Beschreibung (in der Frage und den Kommentaren) geht hervor, dass Ihre Proben möglicherweise abgebaut und daher mit kurzen RNA-Fragmenten gesättigt sind, entweder weil Sie Wenn Sie altes Gewebe haben, sehen Sie sich Umweltproben oder unsachgemäße Handhabung an.

Und da Sie keine Anreicherung durchführen, sind die Sequenzierungsdaten dann auch stark mit abgebauter RNA gesättigt. Der Grund dafür ist, dass RNA-seq eine (hoffentlich etwas einheitliche) Stichprobe Ihres Probenaliquots ist: Alles darin ist proportional in den RNA-seq-Daten dargestellt. Aus diesem Grund sind Anreicherungsschritte wichtig, um den Anteil der Fraktion zu erhöhen, an der wir interessiert sind.

Insbesondere

  1. Gesamt-RNA besteht hauptsächlich aus Genen mit vielen Kopien : meistens rRNA und (viel weniger) tRNA. Daher ist die Bedeutung der Ribosomenverarmung oder der Poly (A) -Selektion.
  2. RNA im Allgemeinen ist instabil. Abhängig von der Probensammlung (Nicht-Gewebeprobenursprung - Alter des Gewebes vor der Ernte?) Kann ein großer Teil der RNA zu winzigen Fragmenten abgebaut worden sein, die durch die Bibliotheksvorbereitung weiter verkürzt werden. Die Größenauswahl würde diese unerwünschten Fragmente beseitigen.
  3. ol>

    Nach meiner Erfahrung wird das zweite Problem bei bestimmten Sequenzern (ich habe es auf einem Illumina HiSeq 1500 gesehen) aufgrund einer gemischten Bibliothek von verschärft kurze und lange RNA scheint nicht gut durch die gesamte Fragmentlänge zu zirkulieren. Selbst wenn Sie einen (kleinen, aber immer noch vorhandenen) Anteil langer RNA-Fragmente haben, kann der Sequenzer möglicherweise nicht die gesamte Länge effizient synthetisieren. Der Effekt ist, dass es proportional mehr kurze Lesevorgänge gibt als kurze Fragmente in der Probe.

    Sie können dies überprüfen, indem Sie die Einfügungsgrößenverteilung Ihrer Lesevorgänge nach dem Trimmen des Adapters berechnen (z. B. mit picard oder einfach die Leselängen 1 sup> zählen). Kleine Lesevorgänge (< ~ 14 nt) von Degradationsfragmenten sind im Wesentlichen nicht kartierbar, da sie zu kurz sind, um eine bestimmte Identität zu haben. Selbst wenn wir dem Mapper erlauben würden, sie auszurichten, wären ihre Koordinaten im Wesentlichen zufällig.


    1 sup> Dies funktioniert:

      awk 'NR % 4 == 2 {c [Länge ($ 0)] ++} END {für (i in c) print i, c [i]} 'in.fastq  
ithinkiam
2017-11-22 17:46:40 UTC
view on stackexchange narkive permalink

Sie können nicht davon ausgehen, dass sich die rRNA-Gene im Genom befinden. Es gibt viele Kopien davon und nicht alle sind auf Chromosomen platziert. Wir hatten dieses Problem mit Daten von Menschen und Mäusen für Gesamt-RNA-Präparate. Sie müssen sicherstellen, dass Sie das gesamte Genom und nicht nur die Chromosomen abbilden.

Ich bin in der Tat auf das gesamte Genom abgebildet. Aber wie auch immer, vorausgesetzt, Sie kartieren gegen das gesamte Genom, haben Sie eine signifikant höhere Kartierungsrate erhalten?


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...