Frage:
Fehlende Gene und Normalisierung der RSEM-Ausgabe mit EBSeq
J0HN_TIT0R
2017-06-02 03:57:13 UTC
view on stackexchange narkive permalink

Ohne zu viel Hintergrundwissen zu haben, habe ich mich gerade als Praktikant für Bioinformatik einem Labor angeschlossen, während ich meinen Master in diesem Bereich abgeschlossen habe. Das Labor verfügt über Daten aus einer von ihnen ausgelagerten RNA-Sequenz. Das einzige Problem besteht jedoch darin, dass die einzigen Daten, die sie haben, von dem Unternehmen vorverarbeitet wurden, das die Sequenzierung durchgeführt hat: Filtern der Lesevorgänge, Ausrichten und Ausführen der ausgerichteten Lesevorgänge über RSEM. Ich habe derzeit eine Ausgabe von RSEM für jede der vier Proben, bestehend aus: Gen-ID, Transkript-ID (s), Länge, erwarteter Anzahl und FPKM. Ich versuche, die FASTQ-Dateien aus der Sequenzierung zu erhalten, aber im Moment ist dies das, was ich habe, und ich versuche, wenn möglich etwas daraus zu machen.

Ich habe diesen Artikel gefunden das darüber spricht, wie die erwarteten Lesezahlen bei der Analyse des differentiellen Ausdrucks mit EBSeq besser sein können als die rohen Lesezahlen; Es ist nur die Meinung eines Mannes und stammt aus dem Jahr 2014, daher ist es möglicherweise falsch oder veraltet, aber ich dachte, ich würde es versuchen, da ich die erwarteten Zahlen habe.

Ich habe jedoch nur ein paar von Fragen zum Ausführen von EBSeq, auf die ich keine Antworten finden kann:

1: In den RSEM-Ausgabedateien, die ich habe, sind nicht alle Gene in jedem vertreten, etwa 80% davon, aber für die Wenn dies nicht der Fall ist, sollte ich sie vor der Analyse mit EBSeq entfernen? Es wird ausgeführt, wenn ich es tue, aber ich bin nicht sicher, ob es korrekt ist.

2: Woher weiß ich, welcher Normalisierungsfaktor beim Ausführen von EBSeq verwendet werden soll? Dies ist eher eine konzeptionelle als eine technische Frage.

Danke!

Zwei antworten:
#1
+6
Daniel Standage
2017-06-02 05:14:21 UTC
view on stackexchange narkive permalink

Ja, dieser Blog-Beitrag repräsentiert nur die Meinung eines Mannes (hi!) und datiert bis ins Jahr 2014 zurück, was ungefähr Jahrzehnten entspricht Genomik Jahre. :-) Übrigens gibt es in der Literatur eine Menge Diskussionen über die Verbesserungen, die erwartete Lesezahlen, die von einem Expectation Maximization-Algorithmus abgeleitet wurden, gegenüber rohen Lesezahlen bieten. Ich würde vorschlagen, zunächst die RSEM-Papiere zu lesen. [ 1] [ 2] sup>.

Aber Ihre Hauptfrage geht es um die Mechanik des Ausführens von RSEM und EBSeq. Erstens wurde RSEM explizit so geschrieben, dass es mit EBSeq kompatibel ist. Daher wäre ich sehr überrascht, wenn es nicht sofort einsatzbereit funktioniert. Zweitens hat die MedianNorm -Funktion von EBSeq meiner Erfahrung nach sehr gut funktioniert, um die Anzahl der Bibliotheken zu normalisieren. In diesem Sinne hat der Blog, den Sie oben erwähnt haben, einen weiteren Beitrag, den Sie vielleicht nützlich finden.

Abgesehen von allen Scherzen sind diese Tools tatsächlich datiert. Ausrichtungsfreie RNA-Seq-Tools bieten Verbesserungen der Laufzeit um Größenordnungen gegenüber älteren ausrichtungsbasierten Alternativen mit vergleichbarer Genauigkeit. Sailfish war der erste in einer wachsenden Liste von Tools, die jetzt Salmon und Kallisto enthalten. Wenn Sie eine neue Analyse von Grund auf neu starten (dh wenn Sie jemals die ursprünglichen FASTQ-Dateien erhalten), gibt es wirklich keinen guten Grund, den Ausdruck nicht mit diesen viel schnelleren Tools zu schätzen, gefolgt von einer Analyse des differentiellen Ausdrucks mit DESeq2, edgeR oder sleuth.


1 sup> Li B, Ruotti V, Stewart RM, Thomson JA, Dewey CN (2010) RNA-Seq-Genexpressionsschätzung mit Lesekartierungsunsicherheit . Bioinformatik , 26 (4): 493–500, doi: 10.1093 / bioinformatics / btp692.

2 sup> Li B, Dewey C (2011) RSEM: genaue Transkriptquantifizierung aus RNA-Seq-Daten mit oder ohne Referenzgenom. BMC Bioinformatics , 12: 323, doi: 10.1186 / 1471-2105-12-323.

"Es gibt wirklich keinen guten Grund, den Ausdruck mit diesen viel schnelleren Werkzeugen nicht zu schätzen" - es sei denn, Sie haben nicht die Rohdaten, wie dies hier der Fall ist
Oh wow. Großes Versehen meinerseits!
Wow, ich hätte nie erwartet, eine Antwort vom eigentlichen Autor zu bekommen! Ich habe R verwendet, um die Datenrahmen zu einer einzigen Matrix aller erwarteten Zählungen für jedes Gen jeder Probe zu verarbeiten.
Ich war genauso überrascht, einen Link zu meinem alten Blog auf StackExchange zu sehen! :) :)
Als kleine Folgefrage versuche ich letztendlich, die Faltungsänderung und den damit verbundenen p-Wert für jedes Gen pro Bedingung zu erhalten. Ich habe GetMultiFC () gefunden, um die Faltenänderungen zu erhalten, aber ich bin mir nicht sicher über den genauen Unterschied zwischen der Faltenänderung und der hinteren Faltänderung. Ich denke, dass die Änderung der hinteren Falte nur die Änderung der Falte für die normalisierten Werte ist, also sollte ich sie verwenden, aber da bin ich mir nicht sicher. Ist es auch möglich, zugehörige p-Werte zu erhalten?
#2
+3
gringer
2017-06-02 06:40:29 UTC
view on stackexchange narkive permalink
  1. Beziehen Sie alle Gene / Transkripte in Ihre Analyse ein.
  2. ol>

    Ein Transkript, das nicht erkannt wird, kann durch einen Stichprobenfehler nicht erkannt werden (dh die Sequenzer- / Bibliotheksvorbereitung hat dies zufällig übersehen Transkript), oder es könnte sein, dass das Transkript nicht in einer bestimmten Probe generiert wurde. Es ist nicht ungewöhnlich, dass Gene als Reaktion auf verschiedene biologische Faktoren ausgeschaltet werden. Daher sollten Gene mit Nullzahl nicht ignoriert werden. Ich kann aus Erfahrung mit EBSeq nicht sprechen, aber solange das Analysepaket eine Nullzählung als "unbeobachtet" und nicht als "abwesend" behandelt (und relevante Korrekturen vornimmt), ist es eine gute Idee, sie beizubehalten.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...