Frage:
Wie sollte das SAM MD-Tag mit der CIGAR-Zeichenfolge übereinstimmen?
mattm
2017-06-13 21:24:28 UTC
view on stackexchange narkive permalink

Ich versuche zu verstehen, wie das MD: Z-Tag verwendet wird. Das Folgende stammt aus der SAM Optional Fields Specification, die ein Beispiel enthält, aber nicht gründlich ist.

Das MD-Feld zielt darauf ab, SNP / Indel-Aufrufe zu erzielen, ohne auf die Referenz zu achten. Beispielsweise bedeutet eine Zeichenfolge "10A5 ^ AC6", dass von der Referenzbasis ganz links in der Ausrichtung 10 Übereinstimmungen gefolgt von einem A auf der Referenz vorhanden sind, das sich von der ausgerichteten Lesebasis unterscheidet. Die nächsten 5 Referenzbasen sind Übereinstimmungen, gefolgt von einer 2-bp-Löschung aus der Referenz. die gelöschte Sequenz ist AC; Die letzten 6 Basen sind Streichhölzer. Das MD-Feld sollte mit der CIGAR-Zeichenfolge übereinstimmen.

Angenommen, ich habe einen Lesevorgang, bei dem ich an beiden Enden einen weichen Clip erstellen möchte. Wenn der Lesevorgang mit CIGAR 100M und MD 50G49 beginnt und ich CIGAR in 7S86M7S ändern möchte, wie soll das MD-Feld aussehen?

Gibt es eine vollständigere Erklärung dessen, was im MD-Tag-Feld angezeigt wird?

Einer antworten:
Devon Ryan
2017-06-13 21:50:57 UTC
view on stackexchange narkive permalink

Die MD-Zeichenfolge gilt nicht für Bereiche mit weichem oder hartem Schnitt. Ihr gelesenes Beispiel wird also zu 43G42 . Da beim Variantenaufruf mit so etwas Einfachem immer nur der ausgerichtete Teil verwendet wird, gab es wohl nie viel Grund, sich mit dem Hinzufügen von Soft-Clipping-Informationen zu beschäftigen. Dies bedeutet auch, dass Sie die CIGAR-Zeichenfolge analysieren müssen, wenn Sie die MD-Zeichenfolge verwenden.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...