Frage:
Wie vergleiche ich Gruppen mit WGS-Daten?
Jessica
2017-06-05 23:06:35 UTC
view on stackexchange narkive permalink

Wir haben Daten zur Sequenzierung des gesamten Genoms für Patienten (nicht Krebs) (n = 60) und für gesunde Kontrollen (n = 20). Das Sequenzierungszentrum hat uns die Best-Practice-Bioinformatik-Analysen zur Verfügung gestellt, einschließlich Reads Mapping (.BAM) und Variantenaufruf mit GATK (.vcf) sowie Annotation (annotated .vcf und .gVCF).

Was sollten unsere nächsten Schritte sein? Wir sind interessiert zu sehen, ob es Unterschiede (global und / oder spezifisch) zwischen den Gruppen gibt.

Ist das wirklich das, woran Sie interessiert sind, oder möchten Sie lieber wahrscheinliche ursächliche Unterschiede feststellen?
Hallo Jessica, danke, dass du eine Frage für Bioinformatics Stack Exchange geschrieben hast. Ihre Frage passt gut zu dem Format, das wir auf dieser Website mögen, da sie spezifisch für eine bestimmte Aufgabe ist und eine kleine Geschichte dahinter enthält. Wenn Sie die Qualität der Antworten auf diese Frage verbessern möchten, würde ich vorschlagen, Informationen darüber hinzuzufügen, mit welchen Arten von Analysen Sie bereits vertraut oder vertraut sind. Haben Sie schon einmal GATK oder R verwendet? Ist dies eine diagnostische Einstellung, bei der eine strukturierte, dokumentierte und replizierbare Analyse wichtig ist?
Klingt so, als würden Sie gerne [GWAS] (https://en.wikipedia.org/wiki/Genome-wide_association_study) machen, aber dafür würden Sie wahrscheinlich viel mehr Samples benötigen. Können Sie Ihre Varianten unterteilen, um nur relevante Regionen des Genoms zu testen? Das würde Ihnen helfen, eine statistische Aussagekraft zu erhalten (weniger Tests -> besser).
Zwei antworten:
#1
+2
gringer
2017-06-06 02:16:01 UTC
view on stackexchange narkive permalink

Ich bin mit dem Programm nicht vertraut, aber anscheinend Hagel richtet sich als Kettensägenprojekt der Schweizer Armee für die nachgelagerte Analyse von Varianten namens Datensätzen ein.

Eine Übersicht über Hagel finden Sie hier:

http://blog.cloudera.com/blog/2017/05/hail-scalable-genomics-analysis-with-spark/

Ein Tutorial zum Assoziationstest finden Sie hier:

https://hail.is/hail/tutorial.html#Association-testing

#2
+2
morgantaschuk
2017-06-06 20:26:24 UTC
view on stackexchange narkive permalink

Wenn Sie über gVCFs verfügen, sollten Sie zunächst versuchen, gemeinsame Varianten aufzurufen. Laut GATK ermöglicht der gemeinsame Variantenaufruf "die Entdeckung von Varianten, indem er die Möglichkeit bietet, bevölkerungsweite Informationen aus einer Kohorte mehrerer Proben zu nutzen, um Varianten mit hoher Empfindlichkeit und Genotypproben so genau wie möglich zu erkennen." Quelle.

Sobald Sie zwei Sätze hochwertiger Varianten haben, hängt das, was Sie als Nächstes tun, von Ihrer Forschungsfrage ab. Suchen Sie nach drogierbaren Mutationen? Zugrunde liegenden Ursachen? Biomarker? Patientenprognose? Sie können sich die am häufigsten mutierten Positionen in der Patientenkohorte ansehen und sie mit Ihrer Referenzkohorte vergleichen, nach gleichzeitig auftretenden Mutationen suchen, diese gruppieren, Hauptkomponentenanalysen durchführen, maschinelles Lernen durchführen, um sie zu schichten usw.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...