Frage:
Warum geben die meisten Aligner die CIGAR-Operation "X" nicht aus?
medbe
2017-06-03 04:58:11 UTC
view on stackexchange narkive permalink

Während ich die SAM-Spezifikation lese, repräsentiert der CIGAR-Operator "X" eine Nichtübereinstimmung. Dies scheint nützlich zu sein, da wir wissen können, wo die Fehlpaarungen liegen, ohne das Referenzgenom zu betrachten. Viele gängige Aligner wie BWA geben jedoch kein "X" aus. Warum lassen sie "X" weg?

Seltsamerweise werden die Nichtübereinstimmungsinformationen im MD-Tag gespeichert (zumindest für BWA), sodass es sich eher um eine bewusste Entscheidung als um eine Frage der Einfachheit zu handeln scheint.
Sie geben im Allgemeinen auch nicht `=` aus.
@DevonRyan Ich denke, es wird entweder "M" oder "X" / "=" ausgegeben. Wenn sie also "X" weglassen, werden sie auch automatisch "=" weglassen
Einer antworten:
#1
+8
John Marshall
2017-06-03 23:39:38 UTC
view on stackexchange narkive permalink

Das SAM-Format hatte ursprünglich nur M , I , D , N , S , H und P CIGAR. Siehe die Original-SAM-Spezifikation (wenn Sie Apple Pages-Dokumente anzeigen können) und Tabelle 1 in Das Sequenzausrichtungs- / Kartenformat und SAMtools (Li et al., 2009). Dies stand im Einklang mit früheren Tools, die CIGAR-Zeichenfolgen verwendeten, insbesondere entlasten , wodurch sie nur mit dem M , I eingeführt wurden und D -Operatoren.

BWA-Backtrack wurde 2008 und 2009 gleichzeitig mit dem SAM-Format geschrieben (und im Mai 2009 veröffentlicht). Das ChangeLog zeigt an, dass ab Januar 2009 Nichtübereinstimmungsinformationen in einem MD -Tag ausgegeben wurden und dass MD in der SAM-Spezifikation der Zeit definiert wurde ( und dass die Syntax des Tag-Werts im Februar 2009 etwas im Fluss war). Das MD -Tag wird auch in dieser frühen SAM-Spezifikation im Format v1.0 Pages beschrieben.

Das = und X CIGAR-Operatoren wurden später in SAM v1.3 als Ergebnis dieses langwierigen Mailinglisten-Threads von samtools-devel eingeführt. Die für die Operatoren und die ersten Implementierungen verwendeten Zeichen waren im Wesentlichen bis November 2009 vorhanden.

Seitdem haben die Operatoren = / X nicht wirklich übernommen von M , wie Sie gesehen haben. Es gibt wahrscheinlich eine Reihe von Faktoren, die dazu beitragen:

  • Ihre spätere Einführung, lange nach dem grundlegenden M / I / D. Operatoren und MD -Tag waren gut etabliert;
  • Möglicherweise sind sie SAM-spezifisch und in anderen CIGAR-Varianten nicht verfügbar.
  • The Das MD -Tag bietet noch weitere Informationen - X gibt keine Auskunft über die nicht übereinstimmenden Referenzbasen.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...