Frage:
Wie erzeugen Sie ein Diagramm mit Leselänge und Lesequalität für Sequenzierungsdaten mit langer Lesung (z. B. MinION)?
Mark Ebbert
2017-06-24 23:16:50 UTC
view on stackexchange narkive permalink

Wie erstellen Sie ein Diagramm mit Leselänge und Lesequalität (Wärmekarte mit Histogrammen am Rand) für Sequenzierungsdaten mit langer Lesung vom Minion Oxford Nanopore Technologies (ONT)? Die MinKNOW-Software von ONT bietet während des Basisaufrufs ein solches Diagramm.

Dies wäre auch für PacBio-Daten sehr hilfreich.

Zwei antworten:
#1
+5
Wouter De Coster
2017-06-26 14:51:54 UTC
view on stackexchange narkive permalink

Ich habe auch ein Paket geschrieben, um verschiedene Diagramme aus Oxford Nanopore-Sequenzierungsdaten und -Ausrichtungen zu erstellen: NanoPlot. Es kann über pip installiert werden (siehe auch die README auf Github). Neben mehreren Plots wird auch eine begrenzte NanoStats-Ausgabe erstellt (siehe auch NanoStat). Daten können dargestellt werden mit:

  • Eine Fastq-Datei (optional komprimiert)
  • Eine BAM-Datei
  • Die von albacore generierte Datei sequencing_summary.txt

Mit optionalen Flags können Sie:

  • Protokolltransformation der Leselängen
  • Ausgerichtete Lesevorgänge anstelle von sequenzierten Lesevorgängen verwenden
  • Downsample der Lesevorgänge
  • Festlegen einer maximalen Leselänge

Ich habe unten ein Beispiel hinzugefügt, in dem die logarithmisch transformierte Leselänge gegen die durchschnittliche Lesequalität aufgetragen wird (unter Verwendung einer Schätzung der Kerneldichte) ). Weitere Beispiele finden Sie in der Galerie in meinem Blog.

Ich freue mich über alle Rückmeldungen und Vorschläge!

enter image description here

#2
+4
Mark Ebbert
2017-06-24 23:16:50 UTC
view on stackexchange narkive permalink

Es ist wichtig, Leselänge und -qualität immer gemeinsam mit fehlerreichen Lesedaten zu berücksichtigen, und aktuelle Technologien für langes Lesen (z. B. MinION und PacBio) weisen hohe Fehlerraten auf. Wenn Sie die Leselänge und -qualität gemeinsam berücksichtigen, können Sie feststellen, wie erfolgreich der Lauf war, wie viele Lesevorgänge von "hoher Qualität" waren, ob die längeren Lesevorgänge "echt" sind (oder nur Porenrauschen) usw.

Ich hatte kürzlich ein starkes Interesse an ähnlichen Handlungen und bin auf ein Projekt namens pauvre gestoßen (französisch für "arm", auf "Pore spielen") ') durch die Community von Oxford Nanopore Technologies (ONT), die meiner Meinung nach sogar besser ist als MinKNOWs Basis-Calling-Plot. Außerdem können Sie diese Diagramme im Gegensatz zu MinKNOW jederzeit aus einer Fastq-Datei generieren.

[Hinweis: Ich bin nicht der ursprüngliche Autor, aber ich trage jetzt bei, weil ich es mochte (und brauchte).]

My description

Pauvre meldet auch nützliche Statistiken:

  fastq-Statistiken für fastq_runid_bb8b8ddedb22bdd6802b2bfa2b4e424c92c30d28_0.fastqnumReads: 2164829numBen : 1495.0minLen: 5maxLen: 392031N50: 3450L50: 402786 Basenpaare > = bin durch Mittelwert PHRED und LängeminLen Q0 Q5 Q10 Q15 Q17.5 Q20 Q21.5 Q25 Q25.5 Q30 0 4970615217 4970611559 483546177 38108 270324 160128 50729 50729 0 0 0 0100000 6260554 6260554 0 0 0 0 0 0 0 0150000 3504240 3504240 0 0 0 0 0 0 0 0200000 2501101 2501101 0 0 0 0 0 0 0 0
250000 1609592 1609592 0 0 0 0 0 0 0 0300000 1033423 1033423 0 0 0 0 0 0 0 0350000 392031 392031 0 0 0 0 0 0 0 0 Anzahl der Lesevorgänge > = bin im Mittel Phred + LenminLen Q0 Q5 Q10 Q15 Q17.5 Q20 Q21.5 Q25 Q25.5 Q30 0 2164829 2164605 2083436 1626706 1183812 435687 77341 1 0 0 50000 109 109 5 3 1 1 0 0 0 0100000 36 36 0 0 0 0 0 0 0150000 15 15 0 0 0 0 0 0 0 0 0000000 9 9 0 0 0 0 0 0 0 0250000 5 5 0 0 0 0 0 0 0300000 3 3 0 0 0 0 0 0 0 0350000 1 1 0 0 0 0 0 0 0 0  

Diese Diagramme und Statistiken wären mit PacBio gleichermaßen nützlich, aber das ist nicht super Einfach (obwohl möglich) mit der aktuellen Rohausgabe des Sequel-Sequenzers: Welche Qualitätsfaktor-Codierung verwendet PacBio?

Pauvre verwendet derzeit Biopython Um das Fastq und die matplotlib für das eigentliche Diagramm zu analysieren, können Sie das Ausgabebildformat auswählen (z. B. .png, .pdf usw.). Sie können auch wählen, ob der Hintergrund transparent oder weiß ist (für die PNG-Ausgabe).

Der Parser ist derzeit sehr langsam, da er SeqIO.parse verwendet. Wir ändern jedoch die Parser, um dies zu beschleunigen. Wir fügen auch einige zusätzliche Funktionen hinzu (z. B. wählen Sie, ob y-Achsen in Randhistogramme aufgenommen werden sollen, drucken Sie einige Statistiken zur Dokumentation direkt in das Diagramm usw.)

Lila ist derzeit die einzige Farbauswahl (die ich persönlich liebe), aber das Hinzufügen von Änderungsoptionen ist sehr einfach.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...