Frage:
Wie kann man Mutationen beim Lesen einer Sam-Datei schnell bestimmen?
rraadd88
2017-05-18 08:14:29 UTC
view on stackexchange narkive permalink

Nach der DNA-Sequenzierung habe ich eine Sam-Datei durch Ausrichtung einer Fastq-Datei generiert. Bevor ich bekannte Variantenaufrufprogramme (z. B. Annovar usw.) verwende, möchte ich einige Lesevorgänge auswählen und wissen, welche Arten von Mutationen vorhanden sind.

Gibt es eine schnelle Möglichkeit, dies zu tun?

Sie können Fehlanpassungen mit etwas wie [IGB] visualisieren (https://wiki.transvar.org/display/igbman/Visualizing+read+alignments#Visualizingreadalignments-Loadsequencedatatoviewmismatches)
Drei antworten:
#1
+8
Scott Gigante
2017-05-18 08:24:19 UTC
view on stackexchange narkive permalink

Für die qualitative Analyse ist es wahrscheinlich besser, etwas weniger Granulares wie IGV oder IGB zu verwenden. Wenn Sie sich jedoch wirklich einige Lesevorgänge ansehen möchten:

Wenn Sie bereit sind, Sequenzierungsfehler zu ignorieren, können Sie die CIGAR-Zeichenfolge oder das MD-Tag überprüfen, die beide Informationen zur Ausrichtung enthalten

Die Zeichenfolge CIGAR enthält Details zu Einfügungen, Löschungen, Ausschnitten, Übereinstimmungen und Nichtübereinstimmungen. Aus dem Genomanalyse-Wiki,

Die Sequenz, die an einer Referenz ausgerichtet ist, enthält möglicherweise zusätzliche Basen, die nicht in der Referenz enthalten sind, oder es fehlen möglicherweise Basen, die in der Referenz enthalten sind. Die CIGAR-Zeichenfolge ist eine Folge von Basislängen und der zugehörigen Operation. Sie werden verwendet, um Dinge anzuzeigen, wie z. B. welche Basen mit der Referenz übereinstimmen (entweder eine Übereinstimmung oder eine Nichtübereinstimmung), aus der Referenz gelöscht werden und Einfügungen sind, die nicht in der Referenz enthalten sind. Zum Beispiel:

  RefPos: 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19Referenz: CCATACTGAACTGACTAA CRead: ACTAGAATGGC Mit der obigen Ausrichtung erhalten Sie : POS: 5CIGAR: 3M1I3M1D5M  

Die häufigste Verwendung der CIGAR-Zeichenfolge verwendet M (Übereinstimmung / Nichtübereinstimmung), I (Einfügen), D (Löschen), S (Soft Clipping) und H. (hartes Abschneiden). Beachten Sie, dass = (Übereinstimmung) und X (Nichtübereinstimmung) als Alternativen zum weniger informativen M verfügbar sind, jedoch weniger häufig verwendet werden.

Das MD-Tag enthält spezifische Details zu Nichtübereinstimmungen und Löschungen. Aus der SAMtools-Tags-Spezifikation,

Das MD-Feld zielt darauf ab, SNP / Indel-Aufrufe zu erreichen, ohne auf die Referenz zu achten. Beispielsweise bedeutet eine Zeichenfolge "10A5 ^ AC6", dass von der Referenzbasis ganz links in der Ausrichtung 10 Übereinstimmungen gefolgt von einem A auf der Referenz vorhanden sind, das sich von der ausgerichteten Lesebasis unterscheidet. Die nächsten 5 Referenzbasen sind Übereinstimmungen, gefolgt von einer 2-bp-Löschung aus der Referenz. die gelöschte Sequenz ist AC; Die letzten 6 Basen sind Streichhölzer. Das MD-Feld sollte mit der CIGAR-Zeichenfolge übereinstimmen.

Beachten Sie, dass keines dieser Felder Ihnen eine Vorstellung von Strukturvarianten in kurzen Lesevorgängen gibt und keines aufgrund von besonders lesbar (oder hilfreich) ist die höhere Fehlerrate) bei langen Lesevorgängen.

#2
+7
dariober
2017-05-21 22:47:47 UTC
view on stackexchange narkive permalink

Ich habe ein Programm geschrieben, ASCIIGenome, das ich in Fällen nützlich finde, in denen Sie einen kurzen Blick auf Genomdaten werfen möchten. Es ist ein Genombrowser für die Befehlszeile.

Um nur Lesevorgänge anzuzeigen, die nicht übereinstimmen, können Sie die interne Funktion awk verwenden. So filtern Sie nach Lesevorgängen, bei denen das NM-Tag (Anzahl der Nichtübereinstimmungen)> 0 ist:

  ASCIIGenome -fa Genom.fa aln.bam ... [h] um Hilfe: awk 'getSamTag (" NM ") > 0 ' 

Die Ansicht auf dem Terminalbildschirm sieht möglicherweise folgendermaßen aus: enter image description here

Ähnlich, um nur zu erhalten Lesevorgänge mit Indels, die Sie verwenden können awk '$ 6 ~ "D | I"'

Ich hoffe, dies hilft und Sie können gerne Fehler bei &-Problemen melden.

Das ist echt cool. Ich mag das.
#3
+4
gringer
2017-05-18 21:23:10 UTC
view on stackexchange narkive permalink

samtools mpileup kann dies schnell tun:

  samtools mpileup -f reference.fasta -uv input.sam > Varianten.vcf  

Dadurch wird eine VCF-formatierte Datei erstellt, die Informationen darüber enthält, welche Varianten in der SAM-Datei gesehen wurden, aggregiert für alle zugeordneten Lesevorgänge.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...