Frage:
Wie genau wird die in FPKM verwendete "effektive Länge" berechnet?
user172818
2017-06-02 00:49:22 UTC
view on stackexchange narkive permalink

Laut diesem berühmten Blog-Beitrag beträgt die effektive Transkriptionslänge:

$ \ tilde {l} _i = l_i - \ mu $

Dabei ist $ l_i $ die Länge des Transkripts und $ \ mu $ die durchschnittliche Fragmentlänge. Typischerweise beträgt die Fragmentlänge jedoch etwa 300 bp. Was ist, wenn das Transkript $ l_i $ kleiner als 300 ist? Wie berechnet man in diesem Fall die effektive Länge?

Eine verwandte Frage: Wie wählt man bei der Berechnung des FPKM eines Gens ein Transkript aus? Wählen wir ein "kanonisches" Transkript (wie?) Oder kombinieren wir die Signale aller Transkripte zu einem FPKM auf Genebene?

Drei antworten:
#1
+14
Devon Ryan
2017-06-02 01:03:41 UTC
view on stackexchange narkive permalink

Die effektive Länge ist $ \ tilde {l} _i = l_i - \ mu + 1 $ (beachten Sie den R-Code am Ende von Harolds Blog-Beitrag), der im Fall von $ \ mu < l_i $ 1 sein sollte Idealerweise verwenden Sie die mittlere Fragmentlänge, die dem bestimmten Feature zugeordnet ist, anstelle eines globalen $ \ mu $, aber das ist viel mehr Arbeit für einen wahrscheinlichen Nutzen von 0.

In Bezug auf die Auswahl eines bestimmten Transkripts, Idealerweise würde man eine Methode wie Lachs oder Kallisto verwenden (oder RSEM, wenn Sie Zeit zum Töten haben). Andernfalls haben Sie die Wahl (A) wählen Sie die Hauptisoform (wenn sie in Ihrem Gewebe und Zustand bekannt ist) oder (B) verwenden Sie ein "Union-Gen-Modell" (summieren Sie die nicht redundanten Exonlängen) oder (C) nehmen Sie das mittlere Transkript Länge. Keine dieser drei Optionen macht einen großen Unterschied, wenn Sie zwischen Proben vergleichen, obwohl sie alle einem Lachs / Kallisto / etc. Unterlegen sind. metrisch.

Warum sind Lachs et al. bessere Methoden? Sie verwenden keine willkürlichen Metriken, die für alle Stichproben gleich sind, um die Feature-Länge zu bestimmen. Stattdessen verwenden sie die Erwartungsmaximierung (oder eine ähnliche, da zumindest Lachs keine EM verwendet), um die Verwendung einzelner Isoformen zu quantifizieren. Die effektive Genlänge in einer Probe ist dann der Durchschnitt der Transkriptlängen nach Gewichtung für ihre relative Expression (ja, man sollte dort $ \ mu $ entfernen). Dies kann dann zwischen den Proben variieren, was sehr nützlich ist, wenn Sie eine Isoformenumschaltung zwischen Proben / Gruppen haben, so dass die oben genannten Methoden AC fehlen würden (denken Sie an Fälle, in denen die Umstellung auf ein kleineres Transkript mit höherer Abdeckung erfolgt ... was dazu führt, dass die Abdeckung / Länge in den Methoden AC gedämpft werden muss.

Aber `\ tilde {l}` ist ein Nenner. Das Setzen auf 1 würde den Wert für kurze Transkripte dramatisch erhöhen. Das klingt für mich gefährlich ... Könnten Sie auch klarstellen, was der Vorteil von Lachs / Kallisto gegenüber A / B / C ist? Vielen Dank.
Kurze Transkripte haben absurd hohe FPKMs, es ist eines der nutzlosen Dinge an FPKMs. Ich werde die Frage bezüglich Lachs / Kallisto / etc. Aktualisieren.
#2
+10
nomad
2017-06-18 23:04:10 UTC
view on stackexchange narkive permalink

Ich habe einen Blog-Beitrag, der die effektive Länge (sowie diese verschiedenen Einheiten für die relative Häufigkeit) beschreibt. Die kurze Erklärung ist, dass das, was Menschen als "effektive Länge" bezeichnen, tatsächlich die erwartete effektive Länge ist (d. H. Die statistische Erwartung der effektiven Länge im statistischen Sinne). Der Begriff der effektiven Länge ist tatsächlich eine Eigenschaft eines Transkripts, eines Fragmentpaars und entspricht der Anzahl potenzieller Startorte für ein Fragment dieser Länge auf dem gegebenen Transkript. Wenn Sie den Durchschnitt über alle Fragmente nehmen, die einem Transkript zugeordnet sind (möglicherweise gewichtet mit der bedingten Wahrscheinlichkeit dieser Zuordnung), ist diese Menge die erwartete effektive Länge des Transkripts. Dies wird oft einfach als $ l_i - \ mu $ oder $ l_i - \ mu_ {l_i} $ --- angenähert, wobei $ \ mu_ {l_i} $ der Mittelwert der bedingten Fragmentlängenverteilung ist (Voraussetzung ist, dass die Fragmentlänge < $ l_i $ ist, um genau das von Ihnen angesprochene Problem zu berücksichtigen.)

#3
+4
Kristoffer Vitting-Seerup
2017-06-16 16:01:15 UTC
view on stackexchange narkive permalink

Informationen zum effektiven Längenteil finden Sie in der Antwort von Devons. Ich habe nur eine kleine Ergänzung: Kallisto / Salmon / RSEM integrieren alle Bias-Schätzungen in die effektive Länge, was bedeutet, dass die effektive Länge nicht nur die Längen-Bias darstellt, wenn Sie die Werte aus diesen Werkzeugen übernehmen (vorausgesetzt, sie wurden mit natürlich aktivierten Bias-Algorithmen ausgeführt ).

Um Schätzungen auf Genebene zu erhalten, sollten Sie kein bestimmtes Transkript auswählen. Stattdessen sollten Sie das RPKM / FPKM / TxPM (Transkript pro Million, das Kallisto / Salmon / RSEM ausgibt) für jedes Transkript extrahieren / berechnen und diese zusammenfassen, um die Schätzung des Genniveaus zu erhalten.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...