Frage:
Welche Methoden gibt es, um die Ähnlichkeit des RNA-Expressionsprofils zu berechnen?
chiffa
2017-06-04 18:50:24 UTC
view on stackexchange narkive permalink

Einige Arbeiten in unserem Labor erfordern den Vergleich eines Stammes unter verschiedenen Versuchsbedingungen. Wir versuchen, die ähnlichsten experimentellen Bedingungen basierend auf der Ähnlichkeit der Gentranskriptionsantwort aus der Zelle zu identifizieren.

Obwohl wir leicht einheimische Methoden dafür erfinden und entwickeln könnten, sind ihre Implementierung und Tests ein mühsames Projekt an sich und liegen außerhalb des Rahmens unserer aktuellen Arbeit.

Gibt es bereits veröffentlichte Methoden zur Berechnung der Ähnlichkeit von RNA-Expressionsprofilen? Wenn ja, wie ist Ihre Erfahrung mit ihnen?

Vier antworten:
#1
+5
gringer
2017-06-05 03:35:10 UTC
view on stackexchange narkive permalink

Es gibt ein neues Papier, das gerade zum Thema "Proportionalität" erschienen ist, einschließlich einer Methode, mit der die RNA-Expression verglichen werden kann.

Dies ist ein neues Konzept für mich und der Artikel ist nicht leicht genug für mich zu lesen, dass ich eine kurze Zusammenfassung schreiben kann; Die Autoren scheinen keinen Abschnitt in der Arbeit der Definition von "Verhältnismäßigkeit" zu widmen. Hier ist jedoch ein interessanter Teil des Artikels:

Wir haben das Beziehungsnetz zwischen diesen mRNAs grafisch dargestellt (S5 Abb.), Ein Ansatz, der dem Gen-Coexpressionsnetzwerk [12] oder dem gewichteten Gen ähnelt Koexpressionsanalyse [13], jedoch auf Proportionalität gegründet und daher für relative Daten gültig. Das Netzwerk enthüllte einen Cluster von 96 und viele andere kleinere Cluster von mRNAs, die sich proportional zu den Bedingungen verhalten.
...
Wir möchten auch das Bewusstsein dafür schärfen, dass Korrelation (und andere statistische Methoden, bei denen Messungen von realen Koordinaten ausgehen Leerzeichen) sollte nicht auf relative Häufigkeiten angewendet werden. Dies ist für Gen-Koexpressionsnetzwerke von hoher Relevanz [12]. Die Korrelation steht im Mittelpunkt von Methoden wie der Weighted Gene Co-Expression Network Analysis [13] und der Heatmap-Visualisierung [14]. Diese Methoden sind möglicherweise irreführend, wenn sie auf relative Daten angewendet werden.

Die Proportionalität ist definiert als (1+ beta ^ 2 - 2 * beta * abs (r)), wobei r die Pearson-Korrelation von log x und log y ist und beta ^ 2 var (log (y)) / var (log () ist x)). Die Autoren bemerken auch: "Die Proportionalität ist angemessen, aber ϕ erfüllt nicht die Eigenschaften eines Abstands - am offensichtlichsten ist es nicht symmetrisch, es sei denn, β = 1". Sie sagen weiter: "Daher besteht unser Ansatz zur Bildung einer Unähnlichkeitsmatrix einfach darin, mit ϕ (log xi, log xj) zu arbeiten, wobei i
Aber warum heißt es "Verhältnismäßigkeit" (nicht formelhaft)? Wie wirkt sich diese Formel auf Ausdruckswerte aus? Können Sie den Rest dieses Satzes ausfüllen: "Proportionalität ist ein Maß, das darstellt, wie der Ausdruck von zwei ..."
Nein, nicht wirklich - ich habe die Verwendung der Verhältnismäßigkeit nicht ganz verstanden. Ich stelle zwar fest, dass Phi kein Maß für die Verhältnismäßigkeit ist, sondern ein Maß für die Anpassungsgüte an die Verhältnismäßigkeit.
Die Proportionalität impliziert, dass das Verhältnis der Expressionswerte zweier Gene konstant ist. Anstatt $ y = mx + c $ in die Regression einzupassen, passt die Proportionalität zu $ ​​y = mx $
#2
+5
Ian Sudbery
2017-06-06 15:57:35 UTC
view on stackexchange narkive permalink

Der Vorschlag, Proportionalität zu verwenden, ist wahrscheinlich der richtige, wenn Sie an ähnlichen Mustern zwischen Stichproben interessiert sind. Aber nicht, wenn Sie an absoluten Unterschieden interessiert sind.

Beispiel: Die folgenden zwei Proben haben ein ähnliches Muster, sind jedoch auf absoluten Niveaus nicht ähnlich:

  Probe 1 Probe 2 Probe 3Gene A 10 100 80Gene B 8 80 100 Gene C 12 120 120  

Die Proben 1 und 2 haben eine perfekte Proportionalität (phi ist 0) und auch eine perfekte Korrelation (als Randnotiz hat jedes Paar mit einer perfekten Proportionalität immer eine perfekte Korrelation). In Bezug auf Änderungen der Protokollfaltung sind sich die Proben 2 und 3 jedoch ähnlicher.

Natürlich würden Sie im wirklichen Leben niemals einen Vergleich wie bei Probe 1 - Probe 2 sehen, da durch Normalisierung der Skalendifferenz beseitigt worden wäre. Dies war genau der Punkt, den das Verhältnismäßigkeitspapier ansprach. Normalisierungsmethoden garantieren jedoch normalerweise nicht, dass die Summe der Ausdrücke für jede Probe identisch ist, und solche Unterschiede können immer noch auftreten.

Eine Alternative, die im zweiten Fall besser geeignet sein könnte, ist entweder der euklidische Abstand zwischen den Proben oder der euklidische Abstand zwischen den ersten beiden Komponenten einer Hauptkomponente oder die mehrdimensionale Skalierung. Letzteres verwendet effektiv die mittlere logFC zwischen Stichproben.

Angenommen, x ist eine Matrix mit normalisierten, logarithmisch transformierten Ausdruckswerten, könnten Sie R und limma verwenden, um die Entfernung in mehreren zu berechnen dimensionaler skalierter Raum wie folgt:

  Bibliothek (limma) mds <-plotMDS (x, plot = FALSE) mds <- data.frame (mds $ x, mds $ y) Entfernungen <-dist (mds)  
Eine Normalisierung würde den Skalendifferenz nur beseitigen, wenn er über einen großen Anteil von Genen konsistent wäre. In dem von Ihnen angegebenen Beispiel wäre dies zwar der Fall, wenn nur die angegebenen Gene getestet würden, aber bei dieser geringen Anzahl von Genen wäre es üblicher, sich eher auf der Grundlage eines Housekeeping-Gens als auf der Grundlage der gesamten Genexpression zu normalisieren.
Ja, das war mein Punkt - daher könnte es einen Grund geben, ein Abstandsmaß (wie den euklidischen Abstand) zu verwenden, mit dem Skalendifferenzen anstelle von Musterunterschieden gemessen werden.
#3
+3
gringer
2017-06-05 03:42:24 UTC
view on stackexchange narkive permalink

Wenn Sie viele Proben mit sehr unterschiedlichen Umgebungsbedingungen haben, ist möglicherweise eine gewichtete Genkorrelationsnetzwerkanalyse ( WGCNA) geeignet.

Diese Art der Analyse sucht Gene, die ähnliche (oder entgegengesetzte) Expressionsmuster unter verschiedenen Bedingungen verfolgen (z. B. hoch-mittel-mittel-niedrig-abwesend-hoch, würden stark negativ mit niedrig-mittel-mittel-hoch-sehr hoch-niedrig korreliert).

In diesem speziellen Artikel wird das Konzept der "Module" vorgestellt, bei denen es sich um Gruppen von Genen handelt, die ähnliche Expressionsmuster aufweisen. Es stehen Funktionen zur Verfügung, mit denen aufgezeichnet werden kann, wie sich die Expression kanonischer Modulmitglieder unter den verschiedenen Bedingungen ändert, und mit denen ermittelt werden kann, zu welchem ​​Modul (oder welchen Modulen) ein bestimmtes Gen wahrscheinlich gehört.

WGCNA funktioniert am besten, wenn es vorhanden ist Viele verschiedene Ausdrucksänderungen in den verschiedenen Bedingungen, was so klingt, als würde es gut zu Ihrem Projekt passen. Es konzentriert sich jedoch mehr auf die Gene als auf die Bedingungen (was für Sie weniger nützlich zu sein scheint).

#4
+2
Daniel Standage
2017-06-07 00:05:40 UTC
view on stackexchange narkive permalink

Der euklidische Abstand ist sowohl konzeptionell als auch in Bezug auf die Implementierung wahrscheinlich der einfachste. Es ist keineswegs eine elegante Lösung, und unter bestimmten Umständen funktioniert es möglicherweise nicht gut.

Die euklidische Entfernung ist am einfachsten als die Entfernung zwischen zwei Punkten in einem zweidimensionalen Raum zu verstehen.

  Y ^ |||| * p = (3, 3) |||| * q = (2, 1) | ---------------------------- > X  

In diesem Beispiel beträgt der Abstand zwischen den beiden Punkten

  d (p, q) = sqrt ((p_x-q_x) ^ 2 + (p_y-q_y) ^ 2) = sqrt (() 2-3) ^ 2 + (1-3) ^ 2) = sqrt (5) ≈ 2.24  

Für ein Genexpressionsprofil mit zwei Genen ist der euklidische Abstand genau so berechnet werden, wobei Expressionswerte von einem Gen als X-Achse und Expressionswerte von dem anderen Gen als Y-Achse verwendet werden. Realistisch gesehen enthalten Genexpressionsprofile jedoch typischerweise Tausende oder Zehntausende von Genen. Daher verwenden wir stattdessen die Verallgemeinerung der Abstandsberechnung für N Dimensionen.

  d (p, q) = sqrt ( (p_1-q_1) ^ 2 + (p_2-q_2) ^ 2 + ... + (p_N-q_N) ^ 2)  

Pakete für R und Python machen diese Arten von Berechnungen trivial Sobald Sie die Daten in die richtige Datenstruktur geladen haben. In Ians Antwort finden Sie einen Beispiel-R-Code.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...