Frage:
Wie wählt man die repräsentativsten Wege aus einer Genanreicherungsanalyse aus?
llrs
2017-05-26 19:07:00 UTC
view on stackexchange narkive permalink

Ich habe eine Anreicherungsanalyse für einen Cluster von Genen durchgeführt. Die Ausgabe ist eine Liste von Pfaden und deren p-Wert (die Pfade werden ausgewählt, weil der p-Wert < 0,05 ist). Die Liste ist immer noch ziemlich lang, deshalb möchte ich sie reduzieren. Zu diesem Zweck habe ich den Würfelkoeffizienten der Pfade in einer Matrix $ p $ x $ p $ berechnet, wobei $ p $ die Anzahl der Pfade in der Liste ist. Ich möchte sowohl diejenigen, die unterschiedlicher sind (sie überlappen sich weniger, ihr Würfelkoeffizient ist niedriger) als auch die Pfade, die repräsentativer für die ähnlichsten Pfade sind (wenn es also eine Gruppe von 5 Pfaden gibt, die sich über 0,8 überlappen, nehmen Sie nur einen).

Wie kann ich die repräsentativsten Pfade auswählen?

Es gibt ein ähnliches -Tool für GO, das jedoch darauf verzichtet, nicht signifikantes GO zu verwerfen, während hier alle anfänglichen Pfade bereits signifikant sind.

Wenn ich die Pfade mithilfe der Würfelkoeffizientenmatrix gruppiere, weiß ich nicht, wo (oder wie) ich schneiden soll.

circular dendrogara

Ich habe versucht, anhand der Höhe die Pfade auszuwählen. Bei der Interpretation der Höhe bin ich mir jedoch nicht sicher.

Einige andere Werkzeuge, die ich gesehen habe, verwenden ein mehrdimensionales Skalierungsdiagramm, aber ich bin nicht sicher, ob es hilfreich wäre, es auszuführen und an einem bestimmten Punkt der ersten Dimension zu schneiden. MDS plot

Verwenden Sie einen p-Wert <0,05 oder einen p-Wert <0,05 / (Anzahl der getesteten Begriffe)? Ersteres sollten Sie verwenden, um Fehlalarme aufgrund mehrerer Tests zu vermeiden
Ich vermute, Sie müssen sich mit einer "einigermaßen guten" heuristischen Lösung zufrieden geben, da das zu lösende Problem einige verschiedene Variablen enthält (Anzahl der Pfade in der Gruppe, gewünschte Überlappung / Entfernung zwischen Pfaden usw.) .) Ich kann mir viele mögliche Antworten vorstellen.
Die Korrektur von @CloudyGloudy für mehrere Tests ist bereits abgeschlossen. Entschuldigung, ich habe es zuvor nicht erwähnt. Ja, ich habe mit der Idee gespielt, eine Überlappung / Distanz von 0,5 zu wählen und diese darüber zu halten, aber das würde außerhalb der Pfade bleiben, die sich völlig von den anderen unterscheiden, aber vielleicht könnte ich diejenigen über 0,75 und diejenigen unter 0,25 auswählen
Drei antworten:
#1
+4
gringer
2017-05-28 15:23:34 UTC
view on stackexchange narkive permalink

Dies klingt nach etwas, das für ein Clustered-Heatmap-Diagramm, ein Korrelationsmatrix-Diagramm oder ähnliches geeignet sein könnte. Haben Sie sich eine Korrelationsmatrix der Würfelkoeffizientenmatrix angesehen (oder vielleicht nur ein Heatmap-Diagramm dieser Matrix ohne die Korrelationsmatrix)?

Das -Korrplot -Paket sieht möglicherweise so aus nützlich, insbesondere die Präsentation hclust / Zeichnungsrechtecke.

Ich kann jedoch nicht für dieses Paket bürgen; Es ist nur etwas, was ich bei der Suche nach "R-Plot-Korrelationsmatrix" gefunden habe.

Mit einer Heatmap oder einem Korrelationsdiagramm konnte ich die Ähnlichkeiten zwischen den Pfaden beobachten, wie ich es derzeit mit dem Dendrogramm und dem MDS-Diagramm mache. Die Frage ist jedoch, wie diese repräsentativeren Wege ausgewählt werden können. Vielen Dank für Ihre Korrekturen und Kommentare übrigens.
#2
+3
benn
2017-12-12 18:38:49 UTC
view on stackexchange narkive permalink

Eine Möglichkeit, ähnliche signifikante Pfade zu gruppieren, besteht darin, zu quantifizieren, wie viele Gene sich zwischen den Pfaden überlappen, und diese dann beim Clustering (Heatmap) zu verwenden. Ich habe in R ein Werkzeug erstellt, das den Überlappungsindex zwischen GO-Begriffen berechnet und sie anschließend in einer Heatmap gruppiert. Der Überlappungsindex ist der Anteil der Gene, die sich überlappen (Zahl zwischen 0-1). Anstelle des Überlappungsindex kann auch die Pearson-Korrelation für das Clustering verwendet werden. Mein Paket ( Gogadget) funktioniert nur mit der Goseq-Analyse, aber Sie können Goseq auch für Reaktom- oder Kegg-Daten verwenden.

Ich habe dieses Überlappungsclustering verwendet Ansatz für verschiedene Datensätze jetzt, und normalerweise können wir 200-300 GO-Terme in 10-20 Funktionsgruppen reduzieren.

Welchen Überlappungsindex wird verwendet? Es gibt mehrere Überlappungsindizes. Ich würde davon abraten, diesen Ansatz in GO zu verwenden. Es gibt spezielle Methoden, um zu messen, wie ähnlich zwei GO-Begriffe sind. Siehe [GOSemSim] (www.bioconductor.org/packages/GOSemSim/).
Der Überlappungsindex wird durch die Anzahl der überlappenden Gene geteilt durch die Anzahl der Gene im kleineren der beiden Gensätze definiert. Es ist in [Bioconductor Case Studies] (http://www-huber.embl.de/pub/pdf/HahneHuberGentlemanFalcon2008.pdf), Kapitel 13.3 beschrieben. Dieses Buch wurde von großen Namen der Bioinformatik geschrieben (wie R. Gentleman und W. Huber).
Danke für den neuen Überlappungsindex, ich wusste es nicht. Übrigens werden bei der Berechnung dieser Ähnlichkeit zwischen Genen andere Überlappungsindizes verwendet, sodass dies nicht hilft.
Okay, aber es geht mir nicht darum, welchen Index ich verwenden soll, sondern um den Clustering-Ansatz (wie bei [gringer] (https://bioinformatics.stackexchange.com/users/73/gringer)). Wenn Sie im [Benutzerhandbuch] (https://sourceforge.net/projects/gogadget/files/gogadget.2.1/) meines Pakets auf Seite 26-28 nachsehen, wird eine Heatmap angezeigt. Normalerweise bekomme ich mit Ward.D und Euclidean gute Ergebnisse. Der Baum kann in R geschnitten werden, aber Sie möchten möglicherweise zuerst sehen und bewerten, welche Gensätze in welchen Zweigen zusammengefasst sind, bevor Sie den richtigen Cutoff finden.
Entschuldigung, mein letzter Kommentar war eine andere Frage. Ja, dieser Ansatz könnte funktionieren
#3
+2
Scott Gigante
2017-05-27 15:43:35 UTC
view on stackexchange narkive permalink

Wenn Sie mit einer sichereren Rangfolge der repräsentativsten Gensätze zufrieden sind, anstatt die Liste unbedingt zu kürzen, können Sie EGSEA ausprobieren. Es verwendet einen Ensemble-Ansatz, um eine Rangfolge der relevantesten Gensätze zu erstellen, und erstellt außerdem eine interaktive HTML-Ausgabe mit Statistiken, Heatmaps, Pfadkarten, Zusammenfassungsdiagrammen und GO-Diagrammen, mit denen Sie die Ausgabe auf verschiedenen Granularitätsstufen untersuchen können.

Sie können das Papier auf bioRxiv lesen oder das Paket von Bioconductor herunterladen.

Das Ranking erfolgt bereits über den p-Wert (man könnte argumentieren, dass ein ausgefeilterer Test wie der von EGSEA vorgeschlagene besser wäre), aber dies scheint nicht zu beantworten, wie relevante Pfade aus der Ausgabe von EGSEA oder anderer Software ausgewählt werden sollen / tools / Methoden
Sie sollten nicht nach p-Wert eingestuft werden. Der p-Wert ist nur ein Hinweis darauf, ob die beobachtete Änderung statistisch signifikant ist, nicht ein Hinweis auf die Größe der beobachteten Änderung.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...