Frage:
Werden Soft-Clipped-Basen für Variantenaufrufe in samtools + bcftools verwendet?
mattm
2017-05-19 23:50:05 UTC
view on stackexchange narkive permalink

Wenn in der CIGAR-Zeichenfolge Soft-Clipped-Basenpaare für das Lesen einer SAM / BAM-Datei angegeben sind, werden diese für Variantenaufrufe in samtools + bcftools a verwendet > Workflow?

Der GATK HaplotypeCaller verfügt beispielsweise über eine explizite Option --dontUseSoftClippedBases für die Verwendung von Soft Clipped Bases. In der samtools-Dokumentation werden keine abgeschnittenen Basen erwähnt.

Einer antworten:
#1
+12
Devon Ryan
2017-05-20 00:19:13 UTC
view on stackexchange narkive permalink

Nein, Samtools (und daher bcftools) verwenden keine Soft-Clipped-Basen. Sie können dies schnell bestätigen, indem Sie entweder samtools depth oder samtools mpileup verwenden, um einen Bereich mit einer weichen Ausrichtung anzuzeigen. Sie werden feststellen, dass der Soft-Clipped-Bereich in der Tiefe / Stapelung nicht verwendet wird (beide Tools verwenden denselben zugrunde liegenden Code, sodass es keine Rolle spielt, welchen Sie verwenden). Wenn Sie neugierig sind, ignoriert samtools weich abgeschnittene Basen, da es darauf basiert, einen Stapel von Ausrichtungen pro Basis für jede Position zu erstellen. Im BAM-Format werden Ausrichtungen sortiert und den Bins entsprechend ihrer Start- / Endposition zugewiesen, ohne dass Soft-Clipping erforderlich ist. Wenn samtools den Stapel erstellt, werden folglich nicht einmal die Ausrichtungen angezeigt, die eine bestimmte Basis überlappen würden, wenn weich abgeschnittene Basen enthalten wären.

Dies wirft dann die Frage auf, was HaplotypeCaller von GATK tut anders. Dort werden Regionen im Genom im Wesentlichen in einem kleinen De-Bruijn-Diagramm zusammengefasst, das es ermöglicht, weich abgeschnittene Basen um Indels herum aufzulösen, vorausgesetzt, das Diagramm würde ein Stück weit hinter jeder Seite von Indels beginnen / enden. Aus diesem Grund müssen Sie mit dem HaplotypeCaller keine Indel-Neuausrichtung durchführen (dies wurde im alten UnifiedGenotyper benötigt).

Bearbeiten : Weitere Informationen zum HaplotypeCaller finden Sie unter diese schöne Seite auf der GATK-Website, die viel detaillierter ist als ich hier.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...