Unterschied zwischen CPM und TPM und welcher für die nachgelagerte Analyse?

Frage:

novicebioinforesearcher

2017-08-15 00:51:22 UTC

view on stackexchange narkive permalink

Was ist der Unterschied zwischen TPM und CPM beim Umgang mit RNA-Sequenzdaten?

Welche Metriken würden Sie verwenden, wenn Sie eine andere Downstream-Analyse als die differentielle Expression durchführen müssten, z.

Clusteranalyse unter Verwendung der Hclust-Funktion und anschließendes Zeichnen der Wärmekarte, um Unterschiede in Bezug auf Expressionsniveaus, Korrelation und pca zu finden.

Ist es falsch, TPM für eine solche Analyse zu verwenden, wenn ja, wann? verwendet man TPM gegen CPM.

Zwei antworten:

Devon Ryan

2017-08-15 02:15:28 UTC

view on stackexchange narkive permalink

Die verschiedenen Gleichungen finden Sie in diesem oft zitierten Blog-Beitrag von Harold Pimental. Wie auch immer, CPM ist im Grunde eine tiefennormalisierte Zählung, während TPM längennormalisiert ist (und dann durch die längennormalisierten Werte der anderen Gene normalisiert wird).

Wenn man zwischen diesen beiden Auswahlmöglichkeiten wählen muss, wählt man typischerweise TPM für die meisten Dinge, da im Allgemeinen die Längennormalisierung praktisch ist. Realistisch gesehen möchten Sie wahrscheinlich log (TPM) , da sonst Rauschen in Ihren am stärksten exprimierten Genen alles antreibt.

Wenn man in einem bestimmten Fall Adapter aus sequenzierten rna seq-Daten mit gepaartem Ende trimmen würde, würde dies zu einer unterschiedlichen Leselänge führen, wie Sie oben sagen. "TPM ist längennormalisiert" bedeutet dies, dass dieser Unterschied in der Leselänge berücksichtigt wird?

@novicebioinforesearcher Nein, Transkript- / Genlänge, die (etwas) mit der Anzahl korreliert und daher dazu neigt, die Clusterbildung zu fördern, sofern sie nicht in angemessener Weise behandelt wird.

Rob Patro hat auch einen ziemlich guten Artikel über das Thema geschrieben: http://robpatro.com/blog/?p=235

Konrad Rudolph

2017-08-15 14:45:03 UTC

view on stackexchange narkive permalink

Weder CPM noch TPM sind hier gut geeignet, da weder eine robuste Normalisierung über Stichproben hinweg durchgeführt wird (siehe den Blog-Beitrag, mit dem Devon verknüpft ist).

DESeq2 bietet zwei robuste Methoden zur Normalisierung des Protokollraums für die nachgeschaltete Analyse. das regulierte Protokoll ( rlog ) und die Varianzstabilisierungstransformation ( vst ). In der DESeq2-Vignette wird erläutert, wie diese für Dinge wie hclust verwendet werden.

Allgemeiner betrachtet berücksichtigt CPM keine Unterschiede in der Transkriptlänge, während TPM dies tut. Wenn die Wahl zwischen TPM und CPM liegt, würde ich daher TPM verwenden. Wenn Sie jedoch nur dieselben Transkripte über Experimente hinweg vergleichen, ist die Transkriptlänge tatsächlich unveränderlich, sodass dies keine Rolle spielt (CPM ist jedoch immer noch keine gute experimentübergreifende Normalisierung).

Ich bin jetzt verwirrt. Was ist die Verwendung von TPM, warum produziert man es und wann oder wo verwenden Sie es? Mit anderen Worten, welche Tools, Analyse in RNA seq würden Sie TPM verwenden, wenn sich alles um die Verwendung von Zählungen und das Durchschieben von DESeq2 dreht

Tools produzieren TPMs, weil sie nicht über die Informationen (= die anderen Stichproben) verfügen, die für die Normalisierung zwischen Stichproben erforderlich sind. Andernfalls ist TPM das Beste, was sie tun können. TPM ist auch nützlich für * Vergleiche innerhalb der Probe *: Es kann Ihnen eine genaue Schätzung geben, wie viel Gene in einer bestimmten Probe relativ zueinander exprimiert werden.

Bitte korrigieren Sie mich, wenn ich hier falsch liege. Bei einem experimentellen Design unterscheiden sich verschiedene Zelltypen von einer normalen Maus, z. B. 4 Zelltypen (jeweils 3 Replikate), die mit derselben Bibliotheksvorbereitung sequenziert wurden, aber möglicherweise zu unterschiedlichen Zeiten vorliegen. Ziel wäre es, nach einer Reihe von zelltypspezifischen Transkripten zu suchen, für die Sie TPM verwenden würden. Wenn Sie einen Signifikanzparameter hinzufügen möchten (benötigen Sie einen p-Wert), würden Sie eine auf Rohzählungen basierende Analyse verwenden. Ich denke, die Verwirrung für mich ist, wenn wir das Wort "Ausdruck" verwenden. Die Leute benutzen TPM und nennen es Ausdruck, verwenden auch Rohzählungen und nennen es Ausdruck

Beides sind Schätzungen für den Ausdruck angesichts der Daten. Ihr Anwendungsfall klingt vernünftig, obwohl ich es im Allgemeinen vorziehen würde, "zelltypspezifische Transkripte" durch Vergleichen verschiedener Zelltypen zu bestimmen, anstatt nur auf einer einzelnen Stichprobe zu basieren. Was bedeuten würde, eine differentielle Expressionsanalyse durchzuführen.

"Was würde bedeuten, eine differentielle Expressionsanalyse durchzuführen"?

@novicebioinforesearcher Für alle Datensätze, die Sie vergleichen möchten. Es ist selten (wenn überhaupt!) Sinnvoll, ein Gen als zelltypspezifisch zu beschreiben, ohne zu sagen "im Gegensatz zu diesen anderen Zelltypen". Beispielsweise kann ein zelltypspezifisches Gen dennoch gering exprimiert werden: Solange es in anderen Zellen * vollständig fehlt *, ist es zelltypspezifisch. Dies ist in der Tat oft der Fall. Sie können daher nicht viele zelltypspezifische Gene charakterisieren, ohne verschiedene Zelltypen zu vergleichen.

Ist VST / RLOG für die Transkriptlänge normalisiert? Wenn nicht, ist es möglich, längennormalisiertes VST / RLOG zu erhalten?

@rmf Nein, sie normalisieren nicht für die Transkriptlänge; Beide Funktionen ändern lediglich die * Verteilungs * -Form der Zählungen in etwas näheres Lineares. Für die Zwecke, in denen Sie rlog / vst verwenden, ist die Berücksichtigung der Transkriptionslänge normalerweise nicht wichtig. Sie können jedoch eine weitere Transformation anwenden (nennen wir es rlog-TMP), wenn Sie eine Anwendung haben, in der Sie sowohl stichprobenübergreifende als auch stichprobeninterne normalisierte Werte benötigen.

Würden Sie sagen, dass es in Ordnung ist, etwas wie "(vst / length) * (10 ^ 6)" zu tun und dies für Heatmaps zu verwenden, bei denen ich die Expression eines Gens mit einem anderen Gen vergleichen möchte.

@rmf Ja, aber in einer Heatmap skalieren Sie normalerweise trotzdem nach (Gen-) Zeilen (entweder explizit oder die Plotfunktion führt die Division intern durch), sodass die Normalisierung pro Transkriptlänge streng genommen ein No-Op ist.

ⓘ

Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.

über - juristisches