Ich versuche zu verstehen, wie das MD: Z-Tag verwendet wird. Das Folgende stammt aus der SAM Optional Fields Specification, die ein Beispiel enthält, aber nicht gründlich ist.
Das MD-Feld zielt darauf ab, SNP / Indel-Aufrufe zu erzielen, ohne auf die Referenz zu achten. Beispielsweise bedeutet eine Zeichenfolge "10A5 ^ AC6", dass von der Referenzbasis ganz links in der Ausrichtung 10 Übereinstimmungen gefolgt von einem A auf der Referenz vorhanden sind, das sich von der ausgerichteten Lesebasis unterscheidet. Die nächsten 5 Referenzbasen sind Übereinstimmungen, gefolgt von einer 2-bp-Löschung aus der Referenz. die gelöschte Sequenz ist AC; Die letzten 6 Basen sind Streichhölzer. Das MD-Feld sollte mit der CIGAR-Zeichenfolge übereinstimmen.
Angenommen, ich habe einen Lesevorgang, bei dem ich an beiden Enden einen weichen Clip erstellen möchte. Wenn der Lesevorgang mit CIGAR 100M
und MD 50G49
beginnt und ich CIGAR in 7S86M7S
ändern möchte, wie soll das MD-Feld aussehen?
Gibt es eine vollständigere Erklärung dessen, was im MD-Tag-Feld angezeigt wird?