Frage:
Neuzuordnung von Genomkoordinaten zur Berücksichtigung von Indels
Greg Slodkowicz
2017-05-30 19:35:08 UTC
view on stackexchange narkive permalink

Ich bin daran interessiert, Codierungssequenzen meines Lieblingsgens bei allen Personen aus den 1000Genomes (und ähnlichen Projekten) zu erhalten. Ich benutze GATK, um die richtige Untergruppe von Varianten zu erhalten, vcf -sensus, um diese Varianten auf das Referenzgenom abzubilden, und schließlich samtools, um die einzelnen Exons zu extrahieren. Dies funktioniert gut, wenn die Varianten SNPs sind, aber wenn es Indels gibt, ändert dies die Koordinaten der Exons und ich bekomme am Ende die falsche Region. Gibt es eine generische Möglichkeit, Genomkoordinaten neu zuzuordnen, um die durch Indels verursachten Änderungen zu berücksichtigen?

Zwei antworten:
#1
+8
Karel Brinda
2017-05-30 20:23:34 UTC
view on stackexchange narkive permalink

Ich denke, Sie benötigen eine LiftOver Chain-Datei, um Ihre Koordinaten zu transformieren. Sie können eine solche Datei mit bcftoolssensus mit dem Parameter -c erhalten:

  -c, --chain <file> schreibt eine Kettendatei für Liftover  

Anschließend können Sie mit CrossMap Koordinaten in verschiedenen Genomformaten transformieren.

Schön, +1. Es wäre großartig, wenn Sie dies um einen Beispielbefehl erweitern könnten, den das OP ausführen könnte, die erforderlichen Schritte usw. Die Stack Exchange-Sites haben sehr strenge Richtlinien bezüglich der Antwort (deshalb habe ich Sie so abgehört) und im Idealfall Wir möchten, dass eine Antwort alle erforderlichen Informationen zur Lösung der gestellten Frage enthält. Mit anderen Worten, bitte posten Sie keine Zeiger (nicht einmal sehr hilfreiche wie diese) als Antworten. Entweder einfach einen Kommentar posten oder den Zeiger in eine vollständige Antwort umwandeln.
Vielleicht bin ich es nur, aber seine Antwort scheint in Ordnung zu sein, selbst nach SE-Standard, aber ich bin es nur.
@nuin stimmte zu, weshalb ich abstimmte. Ich denke nur, dass es mit mehr Details noch besser wäre, das ist alles.
Keine harten Gefühle.
#2
+2
finswimmer
2019-01-16 01:17:46 UTC
view on stackexchange narkive permalink

Wenn das Ziel darin besteht, die Konsensussequenz für bestimmte Regionen zu extrahieren, funktioniert dies im Jahr 2019.

bgzip und indizieren Sie Ihren vcf Datei.

   $ bgzip -c input.vcf > input.vcf.gz $  span> tabix input.vcf.gz  

Erstellen Sie eine region.txt , die eine Region pro Zeile im Format chr: from-to enthält. Wenn Sie bereits eine Bett -Datei haben, können Sie diese kleine awk -Skript verwenden, um sie zu erstellen:

   $ awk '{print $ 1": "$ 2 + 1" - "$  span> 3}' input.bed > region.txt  

Führen Sie nun diese Kombination von samtools und bcftools :

  $ samtools faidx -r Regionen.txt Genom.fa | bcftools Konsens input.vcf.gz -o Konsens. fa  


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...