Frage:
Variante, die Daten im ChIP-seq-Stil aufruft: samtools mpileup mit minimalen Filtern
719016
2017-05-26 18:23:01 UTC
view on stackexchange narkive permalink

Ich führe samtools mpileup (v1.4) auf einer BAM-Datei mit sehr abgehackter Abdeckung aus (Daten im ChIP-Seq-Stil). Ich möchte eine First-Pass-Liste mit Positionen mit SNVs und deren Häufigkeit erhalten, die anhand der Lesezahlen angegeben werden. Unabhängig davon, was ich tue, werden alle SNVs so herausgefiltert, dass sie die Qualitätskontrolle nicht bestehen Der magische Parametersatz für eine erste Liste von SNVs und Frequenzen?

BEARBEITEN: Dies ist eine Frage, die ich auf der "anderen" Website gepostet habe, aber dort keine Antwort erhalten habe.

Könnten Sie einen anderen Anrufer ausprobieren, um dies zu überprüfen? So etwas wie [varscan] (http://dkoboldt.github.io/varscan/)?
@nuin Ich kann es versuchen, erlaubt varscan das Ausschalten der Filterung?
Können Sie einige Beispiele für Befehle hinzufügen, die Sie ausprobiert haben?
@719016 Versuchen Sie diesen [Befehl] (http://dkoboldt.github.io/varscan/using-varscan.html#v2.‌ 3_pileup2snp) und ändern Sie Optionen wie _-- min-Coverage _, _-- min-read2_ und _-- min-avg-qual_. Auf diese Weise können Sie auch überprüfen, ob Ihr Problem mit Samtools oder BAM-Dateien zusammenhängt
Ich bin nur ein bisschen besorgt, dass wenn die Tiefe nicht hoch ist und auch ChIP-Seq-Daten Verzerrungen aufweisen, es sich nicht um SNPs mit hohem Vertrauen handelt. Der springende Punkt bei HC SNP ist auch die Lesetiefe, die im traditionellen ChIP-Seq nicht so sehr vorhanden ist
Ja, vielleicht sollte der Aufruf auf Gipfel nahe der Spitze beschränkt sein und dann Stichprobe mit Stichprobe auf der Teilmenge solcher SNVs vergleichen
Zwei antworten:
#1
+7
burger
2017-05-27 06:16:16 UTC
view on stackexchange narkive permalink

Ich habe dies in der Vergangenheit für ChIP-seq-Daten verwendet und es wurden SNVs generiert:

  samtools mpileup \ - unkomprimiert --max-depth 10000 --min-MQ 20 --ignore -RG --skip-indels \ - fasta-ref ref.fa file.bam \ | bcftools call --consensus-caller \ > out.vcf  

Dies war samtools 1.3, falls dies einen Unterschied macht.

Ich habe es geschafft, mit diesen Parametern zu arbeiten. Vielen Dank!
#2
+5
user172818
2017-05-29 19:47:27 UTC
view on stackexchange narkive permalink

Ein anderer Ansatz ist htsbox. Sie können eine Kandidatenliste erhalten mit:

  htsbox-Stapel -Cvcf ref.fa -q20 -Q20 -s5 file.bam > out.vcf  

Hier , -q legt die minimale Zuordnungsqualität fest, -Q legt die minimale Basisqualität fest, -v gibt nur Varianten aus -c gibt VCF aus, -C gibt Ihnen Basiszählungen für beide Stränge und schließlich erfordert -s5 mindestens 5 hochwertige Basen, um ein Allel aufzurufen. Dies ist nützlich, wenn Ihre Daten die Annahmen typischer Variantenaufrufer nicht erfüllen.

Warum nicht samtools + bcftools oder varscan? Transparenz und Geschwindigkeit. Diese Befehlszeile zählt einfach basierend auf den von Ihnen verwendeten Parametern. Es werden keine zusätzlichen Operationen angewendet. Und aus diesem Grund ist es über eine Größenordnung schneller als samtools mpileup oder varscan. Es ist erwähnenswert, dass samtools standardmäßig BAQ verwendet, wodurch FPs gelegentlich reduziert werden. BAQ ist jedoch für längere Illumina-Lesevorgänge nicht unbedingt erforderlich und schadet gleichzeitig der Empfindlichkeit.

Ich werde auf jeden Fall htsbox ausprobieren, wie Sie sagen, es funktioniert, indem Sie einfach anhand der Parameter zählen.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...