Frage:
Wie bewerte ich bei einem VCF eines menschlichen Genoms die Qualität anhand bekannter SNVs?
ShanZhengYang
2017-05-21 02:49:51 UTC
view on stackexchange narkive permalink

Ich suche nach Werkzeugen, um die Qualität eines VCF eines menschlichen Genoms zu überprüfen. Ich möchte den VCF gegen öffentlich bekannte Varianten in anderen menschlichen Genomen prüfen, z. Wie viele SNPs befinden sich bereits in öffentlichen Datenbanken, ob sich Einfügungen / Löschungen an bekannten Positionen befinden, Längenverteilung für Einfügungen / Löschungen, andere SNVs / SVs usw.? Ich vermute, dass es Ressourcen aus früheren Projekten gibt, um nach bekannten SNPs und InDels durch menschliche Subpopulationen zu suchen.

Welche Ressourcen gibt es dafür und wie mache ich das?

Drei antworten:
#1
+7
Kevin
2017-05-21 19:48:39 UTC
view on stackexchange narkive permalink

Um (zumindest einige) Ihrer Ziele zu erreichen, würde ich den Variant Effect Predictor (VEP) empfehlen. Es ist ein flexibles Tool, das verschiedene Arten von Anmerkungen zu einer .vcf-Eingabedatei bereitstellt. Ich stimme zu, dass ExAC der de facto Goldstandardkatalog für die genetische Variation des Menschen in kodierenden Regionen ist. Um die Häufigkeitsverteilung von Varianten nach globaler Subpopulation zu sehen, stellen Sie sicher, dass zusätzlich zu den 1000 Genomen "ExAC-Allelfrequenzen" überprüft wird. VEP ExAC

Ausgabe im Webbrowser: VEP_ExAC_res

Wenn Sie die mit Anmerkungen versehenen .vcf-Frequenzen herunterladen befindet sich im Feld INFO :

  ## INFO = <ID = CSQ, Number =., Type = String, Description = "Konsequenzanmerkungen aus Ensembl VEP. Format : Allel | Konsequenz | IMPACT | SYMBOL | Gen | Feature_Typ | Feature | BIOTYPE | EXON | INTRON | HGVSc | HGVSp | cDNA_Position | CDS_Position | Protein_Position | Aminosäuren | Codons | Existierende_Variation | ENTFERNUNG | STRAND | FLAGGE | SYMBL_S | | PolyPhen | AF | AFR_AF | AMR_AF | EAS_AF | EUR_AF | SAS_AF | AA_AF | EA_AF | ExAC_AF | ExAC_Adj_AF | ExAC_AFR_AF | ExAC_AMR_AF | ExAC_EAS_AF | ExAC_FIN_AF | ExAC_NFE_AF | ExAC_OTH_AF | ExAC_SAS_AF | CLIN_SIG | SOMATIC | Phäno | MOTIF_NAME | MOTIF_POS | HIGH_INF_POS | MOTIF_SCORE_CHANGE  

Der zuvor erwähnte Annovar kann auch mit ExAC-Allelfrequenzen annotieren. Schließlich sollte die neueste Ressource für das gesamte Genom, gnomAD, erwähnt werden.

Sehr guter Vorschlag. Mein Verständnis ist, dass ExAC ca. hält. 123K-Exome und gnomAD haben jetzt ungefähr 15K-Genome
Dies sind alles großartige Antworten, aber da dies der Favorit der Community zu sein scheint, werde ich es als "die Antwort" markieren. Aber zukünftige Leser: Bitte schauen Sie sich die anderen an!
#2
+5
Kamil S Jaron
2017-05-21 06:12:08 UTC
view on stackexchange narkive permalink

Der größte Katalog für Protein -codierende Varianten ist definitiv ExAC (> 65.000 Personen). Sie haben auch einen Blogpost veröffentlicht, in dem sie beschreiben, wie Zahlen in dem Papier reproduziert werden (dies ist ein guter Anfang, um sich mit dem Datensatz vertraut zu machen).

Für das Ganze -genome Varianten Ich würde mir die Daten ansehen, die durch das Projekt 1000 Genome erstellt wurden (die neueste Version hat mehr als 3.000 Personen). Die integrierten Anrufsätze können über das Portal heruntergeladen werden, und der Katalog der SVs finden Sie hier.

In this In einem Papier (ebenfalls 1000-Genom-Projekt) sprechen sie über die ungenaue Platzierung von SVs durch SV-Anrufer. Ich würde dies beim Vergleich Ihres Genoms mit den bekannten Varianten berücksichtigen.

Danke für die Hilfe. Ich bin etwas verwirrt über den Hyperlink bei `guide`, der das benötigte Perl-Skript beschreibt. Mit diesem Skript wird ein VCF aus einer aggregierten ~ 2,5K-Person erstellt.
Das Skript ist Teil von [VCFtools] (http://vcftools.github.io/). Sie verknüpfen es mit dem Handbuch des Pakets anstelle des Quellcodes. Es wird erwartet, dass Sie das Paket installieren und nicht nur das Skript herunterladen. Ich habe auch festgestellt, dass sie ein Portal auf der Welpage gestartet haben, also habe ich die Antwort bearbeitet.
#3
+4
nuin
2017-05-21 10:18:16 UTC
view on stackexchange narkive permalink

Verwenden Sie am besten Programme, die eine vollständige Anmerkung zu den in Ihrem VCF vorhandenen Varianten enthalten. Zwei Beispiele sind snpEff und Annovar. Diese Programme arbeiten mit bekannten Varianten, die unterschiedliche Quellen betrachten, und liefern Ihnen Informationen zu jedem Element in Ihrer Datei, nach denen Sie filtern können, um zu versuchen, die Auswirkungen jeder Variante zu verstehen.

Es gibt jetzt Zugriff auf gnomAD mit ANNOVAR, was ziemlich cool ist.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...