Frage:
Wie führe ich einen Abstammungs- / Beimischungstest für eine einzelne VCF-Datei durch?
gringer
2017-06-06 17:44:58 UTC
view on stackexchange narkive permalink

Dies ist eine Frage von / u / Benefizii9 zu reddit. Den Originalbeitrag finden Sie hier.

Durch das Personal Genome Project habe ich mein gesamtes Genom von Veritas sequenzieren lassen und in der Form einer einzelnen VCF-Datei für das gesamte Genom und einer BAS-Datei für jedes Chromosom. Das mit der VCF-Datei verknüpfte Referenzgenom ist hg19. Es war hilfreich bei Gesundheitsdaten; Ich habe zum Beispiel festgestellt, dass ich homozygot für das nicht funktionierende variante CYP-2D6-Gen ( rs3892097) bin, das mehrere gängige Medikamente unbrauchbar machen kann und erklärt, warum einige Medikamente nicht wirklich wirken mich. Mein Arzt hat diese Informationen als sehr hilfreich empfunden.

Leider kann ich keine Möglichkeit finden, Beimischung oder Abstammung zu betrachten. Ich habe versucht, alles mit einer Kombination aus VCFTools, Plink1.9 und ADMIXTURE einzurichten, aber ich kann es nicht zum Laufen bringen. Ich denke, für ADMIXTURE müssen Sie eine Reihe von Genomen nach geografischer Herkunft sortieren, um Ihr Genom damit zu vergleichen, aber ich bin mir nicht sicher, wie ich das machen soll, und was online ist, ist mir nicht ganz klar. Also kratz das ab.

Ich habe versucht, die Datei in das 23andme-Format zu konvertieren (und bei diesem / u / Psychosomatismus war das sehr hilfreich). Ich habe das getan (obwohl es anscheinend Probleme gab, weil die VCF-Datei eingerichtet wurde). Aber die Websites, die die Daten aufnehmen, möchten, dass Sie sie auf Ihr 23andme-Konto verweisen, und das funktioniert nicht wirklich, wenn Sie nur die Datei haben. 23andme sieht keine Menschen vor, deren gesamtes Genom sequenziert wurde. Sie möchten, dass Sie ihnen wie allen anderen eine Speichelprobe geben.

Also, was kann ich tun?

Fünf antworten:
#1
+5
Kevin
2017-12-21 18:56:44 UTC
view on stackexchange narkive permalink

Eine modifizierte Implementierung der Antwort von Vivek.

peddy ist ein Python-Paket, das eine Eingabe .vcf an ~ 25000 Standorten abtastet und auf a projiziert Hauptkomponentenraum, der auf 2504.000 Genomproben aufgebaut ist. Der Autor verfügt über eine ausführliche Dokumentation der Funktionen des Tools und einen Link zum Preprint.

Ich habe die .vcf und .vcf.tbi für das NA12878-Beispiel von Genome in a Bottle ftp hier heruntergeladen. Anschließend wurde eine benutzerdefinierte .ped -Datei NA12878.ped mit dem folgenden Inhalt erstellt:

NA12878 HG001 0 0 2 0

In der Befehlszeile:

$ peddy --plot --prefix myvcf vcf.gz NA12878.ped

Die Ausgabedateien haben alle das Präfix myvcf. , hier ist myvcf.pca_check.png myvcf.pca_check.png

Ich denke, es könnte sich lohnen, Folgendes hinzuzufügen: "peddy" erfordert "colouredlogs" und "cyvcf2", für die später gcc & g ++ und die Header (z. B. "-dev" -Versionen in Ubuntu) von "libbz2", "liblzma" erforderlich sind und "locken". Dieses Wissen hätte wertvolle 15 kostbare Momente meines Lebens gerettet :)
Außerdem scheint es nach der Installation den Fehler zu geben: `AssertionError: Fehler beim Laden des Tabix-Index für b'HG001_GRCh37_GIAB_highconf_CG-IllFB-IllGATKHC-Ion-10X-SOLID_CHROM1-X_v.3.3.2_highconf_PGandRTGf Meines Wissens sollte die "2" nicht "0" sein oder dem Benutzer überlassen bleiben, basierend auf seinem Geschlecht festzulegen?)
#2
+4
Vivek
2017-06-06 18:03:11 UTC
view on stackexchange narkive permalink

Ein Vorschlag aus dem Whitepaper der britischen Biobank-QC-Methoden:

  1. Erstellen Sie eine Reihe von SNPs, die Ihrem VCF und dem Phase-3-Aufrufsatz mit 1000 Genomen gemeinsam sind.
  2. Durchführen PCA der 1000 Genomproben mit eigenstrat smartpca. Möglicherweise müssen Sie in das binäre Plink-Format konvertieren.
  3. Projizieren Sie Ihre Genotypen auf diesen vorberechneten PCA-Bereich und visualisieren Sie mithilfe von ggplot, in welchen Cluster Sie fallen.
  4. ol>
#3
+3
gringer
2017-06-06 18:16:06 UTC
view on stackexchange narkive permalink

Ahnenuntersuchungen sind ein heikles Thema. Ich habe einen guten Teil meines Promotionsprojekts für ähnliche Fragen ausgegeben und keine wirklich gute Antwort gefunden, wie man nicht modellierte Vorfahren erkennt.

Die allgemeine Idee, wie Ich habe versucht, mich der Bestimmung der Vorfahren zu nähern, indem ich einen Modellsatz erstellt habe, der genau definierte Gruppen von Personen mit einem bekannten, spezifischen Hintergrund der Vorfahren enthält. Eine Abfrageperson (oder Einzelpersonen) wurde dann zu dieser Gruppe hinzugefügt, und ein Programm zur Schätzung der Vorfahren wurde ausgeführt (insbesondere Struktur), um herauszufinden, welcher Anteil der unbekannten Person jeder der bekannten Gruppen zugeordnet werden konnte . Ich würde erwarten, dass die meisten genetischen Abstammungstests einen ähnlichen Ansatz verfolgen, wenn auch mit etwas weniger Sorgfalt bei der Definition der Modellpopulationsgruppen.

Probleme treten auf, wenn Personen einer bestimmten Gruppe falsch zugeordnet werden , wenn im Modellsatz Gruppen vorhanden sind, die einen größeren Anteil von Personen als die meisten anderen Gruppen darstellen, wenn Gruppen eng mit anderen Gruppen verwandt sind und wenn in einer Testperson eine Ahnenhistorie vorhanden ist, die keiner der Gruppen entspricht Modellgruppen. Und alles, was davon ausgeht, dass der für die Bestimmung der Vorfahren verwendete Markersatz perfekt ist: keine Tendenz zu einer bestimmten Gruppe und kein systematischer Genotypisierungsfehler.

Dies bedeutet nicht, dass die Ahnenprüfung nicht funktioniert, aber es ist Eine gute Idee, die Ergebnisse mit einem großen Salzkorn aufzunehmen. Es gibt ein gutes Beispiel für eine Medienpersönlichkeit in Neuseeland, der gesagt wurde, dass sie eine sehr hohe Wahrscheinlichkeit habe, 100% Māori zu sein, obwohl sie über gute Kenntnisse ihrer eigenen Familiengeschichte verfügt, die auf einen europäischen Vorfahren hinweisen einige Generationen zurück auf beiden Seiten ihrer Familie.

#4
+2
Kevin
2019-01-16 08:14:16 UTC
view on stackexchange narkive permalink

Hinzufügen einer weiteren Antwort, die zwar viel komplizierter ist, aber Flexibilität bietet, nur minimale Schritte durchläuft und Visualisierungen bereitstellt.
Ich habe eine Dash-App und ein Repository erstellt Untersucht diese Art der Analyse unter Verwendung veröffentlichter informativer SNPs mit Vorfahren und 1000-Genom-Projektdaten.

  1. Identifizieren Sie veröffentlichte SNPs (AISNPs) mit Informationen zu Vorfahren. /
  2. 1000 Genome herunterladen Projektgenotyp bcf-Daten.
  3. Beschränken Sie die Genotypdaten von (2) auf AISNPs Loci aus (1).
  4. One-Hot-Codierung der Genotypen.
  5. Durchführen einer Dimensionsreduktion (PCA, t-SNE oder UMAP)
  6. Zeichnen Sie Komponenten.
  7. ol>

    Der ursprüngliche Beitrag schien sein Genom gegen eine Referenzprobe projizieren zu wollen. Die plot_walkthrough.ipynb im Repo tgviz zeigt, wie dies erreicht werden kann.
    Ausgabe aus dem Notizbuch mit meinen eigenen Daten:

    enter image description here

#5
+1
Christopher Chang
2019-01-18 23:39:59 UTC
view on stackexchange narkive permalink

Verwandte Themen: Überprüfung der ethnischen Zugehörigkeit entweder anhand von BAM- oder VCF-Dateien

Das fehlende Puzzleteil ist ein mit Vorfahren gekennzeichneter Referenzdatensatz. 1000 Genome Phase 3 funktioniert hier normalerweise gut genug und es gibt jetzt Variantenaufrufsätze für GRCh37 und GRCh38.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...