Wenn Sie RNA aus frisch geernteten Geweben unter geeigneten Bedingungen sequenzieren, sollten Sie im Allgemeinen mit> 50% kartierten Lesevorgängen rechnen. Tatsächlich würde alles, was zu 80% < ist, normalerweise Bedenken aufwerfen.
Aus Ihrer Beschreibung (in der Frage und den Kommentaren) geht hervor, dass Ihre Proben möglicherweise abgebaut und daher mit kurzen RNA-Fragmenten gesättigt sind, entweder weil Sie Wenn Sie altes Gewebe haben, sehen Sie sich Umweltproben oder unsachgemäße Handhabung an.
Und da Sie keine Anreicherung durchführen, sind die Sequenzierungsdaten dann auch stark mit abgebauter RNA gesättigt. Der Grund dafür ist, dass RNA-seq eine (hoffentlich etwas einheitliche) Stichprobe Ihres Probenaliquots ist: Alles darin ist proportional in den RNA-seq-Daten dargestellt. Aus diesem Grund sind Anreicherungsschritte wichtig, um den Anteil der Fraktion zu erhöhen, an der wir interessiert sind.
Insbesondere
- Gesamt-RNA besteht hauptsächlich aus Genen mit vielen Kopien : meistens rRNA und (viel weniger) tRNA. Daher ist die Bedeutung der Ribosomenverarmung oder der Poly (A) -Selektion.
- RNA im Allgemeinen ist instabil. Abhängig von der Probensammlung (Nicht-Gewebeprobenursprung - Alter des Gewebes vor der Ernte?) Kann ein großer Teil der RNA zu winzigen Fragmenten abgebaut worden sein, die durch die Bibliotheksvorbereitung weiter verkürzt werden. Die Größenauswahl würde diese unerwünschten Fragmente beseitigen.
ol> Nach meiner Erfahrung wird das zweite Problem bei bestimmten Sequenzern (ich habe es auf einem Illumina HiSeq 1500 gesehen) aufgrund einer gemischten Bibliothek von verschärft kurze und lange RNA scheint nicht gut durch die gesamte Fragmentlänge zu zirkulieren. Selbst wenn Sie einen (kleinen, aber immer noch vorhandenen) Anteil langer RNA-Fragmente haben, kann der Sequenzer möglicherweise nicht die gesamte Länge effizient synthetisieren. Der Effekt ist, dass es proportional mehr kurze Lesevorgänge gibt als kurze Fragmente in der Probe.
Sie können dies überprüfen, indem Sie die Einfügungsgrößenverteilung Ihrer Lesevorgänge nach dem Trimmen des Adapters berechnen (z. B. mit picard oder einfach die Leselängen 1 sup> zählen). Kleine Lesevorgänge (< ~ 14 nt) von Degradationsfragmenten sind im Wesentlichen nicht kartierbar, da sie zu kurz sind, um eine bestimmte Identität zu haben. Selbst wenn wir dem Mapper erlauben würden, sie auszurichten, wären ihre Koordinaten im Wesentlichen zufällig.
1 sup> Dies funktioniert:
awk 'NR % 4 == 2 {c [Länge ($ 0)] ++} END {für (i in c) print i, c [i]} 'in.fastq