Ich kenne eine solche Software nicht.
Ich glaube jedoch, dass diese Bemühungen etwas fehlgeleitet sind. Der Zweck der Einzelzellsequenzierung besteht darin, ein besseres Verständnis der Zellen zu erhalten. ihre Heterogenität und funktionelle Vielfalt oder entwicklungs- / biologische Prozesse wie Differenzierung unter Verwendung einer Methode mit höherer "Auflösung". Mit anderen Worten, wenn wir die Methoden hätten, nach denen Sie fragen, wäre das Einzelzellenexperiment nicht erforderlich.
Wenn Sie Ihre Daten unter Verwendung von Vorkenntnissen durch eine Pipeline laufen lassen, besteht die Gefahr, dass Ideen auf die Daten, anstatt zu sehen, was die Daten Ihnen sagen: Es wäre besser, zu versuchen, die biologisch relevante Heterogenität und Diversität in Ihren Zellen zu verstehen und zu erklären, zusammen mit einem kritischen Vergleich der Zelltypmerkmale (Expression von Genen, Signalwegen) mit dem beschriebenen Wissen Diese Frage ist auch der Frage sehr ähnlich, die Sie zuvor gestellt haben und die beantwortet wurde.
Es ist auch gut zu erkennen, dass Ihr Ansatz viele implizite Annahmen enthält, wie z. Zellen können eindeutig als +/- Expression für jedes Gen kategorisiert werden, oder sie ignorieren die Systemebene (Netzwerke und Pfade), wodurch wiederum Konzepte für die Daten erzwungen werden.
Dies würde eine Methode bedeuten eine Tabelle mit Zelltypmarkierungen zu erstellen, wie in der verknüpften Liste beschrieben Wenn Sie oben antworten, schreiben Sie ein Skript, das einen Grenzwert für die Expression von Genen in Ihren Daten bestimmt (siehe dies), und ordnen Sie dann die Zelltypen für jede Zelle. Sie können beispielsweise die Anzahl oder den Anteil der eindeutig exprimierten Gene messen (obwohl dies sehr einfach ist).
Wenn Sie mit maschinellem Lernen vertraut sind, können Sie auch einen Klassifizierer für einen mit Anmerkungen versehenen Datensatz trainieren Verwenden Sie dies dann für neue Daten.
Siehe auch eine Convenience-Funktion unten, die eine Tabelle mit Markergenen für jeden Zellcluster (dh (die Ausgabe von Seurat :: FindAllMarkers ()
) sowie eine Referenz-df-Liste der Gene und der entsprechenden Zelle erfordert Geben Sie die Spalten HGNC_symbol und Cell_type ein und geben Sie die Tabelle mit den Auflistungsclustern, ihren Markergenen und den entsprechenden Zelltypen zurück.
getCelltypes <- Funktion (Marker, Referenz) {marker.celltype <- Marker marker.celltype $ Cell_type <- marker.celltype $ gene marker.celltype $ Cell_type <- with (Referenz, celltype [match (marker.celltype $ Cell_type, gene)]) return (marker.celltype)}
Viele Varianten dieser Referenztabelle und -funktion können erstellt werden. Sie können sie jederzeit ändern.
Ich denke, wir können in Zukunft eine solche Klassifizierungssoftware erwarten, die Referenzdaten aus dem menschlichen Protein verwendet Atlas, HCA und ähnliche Projekte.