Frage:
Klassifizierung von Proben basierend auf der Markergenexpression
GWW
2017-05-24 20:41:28 UTC
view on stackexchange narkive permalink

Ich habe einige Sätze von Markergenen, mit denen ich RNA-seq-Proben mithilfe von halbüberwachtem Clustering klassifizieren kann. Ich möchte den Prozess automatisieren, habe jedoch Schwierigkeiten, den idealen Algorithmus zu finden, mit dem aus einer bestimmten Probe eine Art Score für den Markergensatz generiert werden kann.

Ich gehe davon aus, dass dies in vielen Gruppen eine Standardanalyse ist, bin mir jedoch nicht sicher, welche Methode (n) in der Praxis zu guten Ergebnissen führen.

Vor kurzem gab es eine ähnliche Frage zu Biostars, die keine Antworten lieferte: https://www.biostars.org/p/239228/
Ich bin überrascht. Es scheint ein so wichtiges Problem zu sein. Besonders wenn scRNA-seq an Popularität gewinnt.
Da Sie scRNA-seq-Daten erwähnt haben, könnten Sie an [Buettner * & al. *] Interessiert sein (https://www.nature.com/nbt/journal/v33/n2/full/nbt.3102.html): “ Die rechnergestützte Analyse der Heterogenität von Zelle zu Zelle in Einzelzell-RNA-Sequenzierungsdaten zeigt verborgene Subpopulationen von Zellen. “ Es geht nicht ganz auf Ihr Problem ein, zeigt jedoch einige der Probleme auf, die mit der Identifizierung von Zellpopulationen in scRNA-seq verbunden sind, die in Bulk-RNA-seq weitgehend geglättet sind.
Einer antworten:
#1
+7
Peter Humburg
2017-05-25 04:32:41 UTC
view on stackexchange narkive permalink

Ich würde die Verwendung von Genexpressionssignaturen zur Klassifizierung von Proben (insbesondere von Krebs-Subtypen, aber dieselben Prinzipien gelten auch für andere Probleme dieses Typs) als eines der klassischen Probleme der Bioinformatik in Betracht ziehen. Es wurde viel Arbeit an Methoden geleistet, um Gensätze abzuleiten, die eine gute Klassifizierungsleistung bieten. Dies unterscheidet sich geringfügig von Ihrem Problem, da Sie bereits eine Gensignatur haben, diese sich jedoch möglicherweise als nützlich erweist.

Diese Methoden passen normalerweise zu einem Modell, das eine (kleine) Anzahl von Genen aus genomweiten Expressionsdaten auswählt die zwischen den fraglichen Zelltypen / -bedingungen unterscheiden, dh sie leiten eine Gensignatur ab. Das resultierende Modell ermöglicht dann die Klassifizierung neuer Proben. Ich hatte Erfolg mit GeneRave für diesen Zweck (aber beachten Sie, dass dies für Microarray-Daten entwickelt wurde, ich habe es nicht mit RNA-seq-Daten verwendet und weiß nicht, wie gut es dort hält ). Ein neueres Papier zu diesem Thema finden Sie hier.

Wie hilft Ihnen das? Eine Möglichkeit wäre, einen dieser Klassifikatoren an Genexpressionsdaten für die Gene anzupassen, die Sie bereits kennen, um ein Modell zu erhalten, das dann automatisch auf neue Proben angewendet werden kann.

Das ist wirklich hilfreich, vielen Dank. Ich werde diese ausprobieren oder zumindest sehen, wie ich ihre Methoden anpassen kann.
Wenn Sie sich an @Peter Humbergs Vorbehalt halten, dass GeneRave für Microarray-Daten entwickelt wurde, können Sie Ihre Zählungen mithilfe von Limma "voom" transformieren, um sie * microarray-artig * zu machen.
Wenn ich die cDNASeq-Expression mit dem Microarray vergleichen muss, verwende ich eine Transkriptlängennormalisierung, die auf die VST-Transformation von DESeq angewendet wird (die ich 'VSTPk' nenne). Weitere Einzelheiten hierzu finden Sie im Methodenabschnitt unseres Th2 RNASeq-Dokuments: http: //dx.doi.org/10.1084/jem.20160470


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...