Es ist wichtig, Leselänge und -qualität immer gemeinsam mit fehlerreichen Lesedaten zu berücksichtigen, und aktuelle Technologien für langes Lesen (z. B. MinION und PacBio) weisen hohe Fehlerraten auf. Wenn Sie die Leselänge und -qualität gemeinsam berücksichtigen, können Sie feststellen, wie erfolgreich der Lauf war, wie viele Lesevorgänge von "hoher Qualität" waren, ob die längeren Lesevorgänge "echt" sind (oder nur Porenrauschen) usw.
Ich hatte kürzlich ein starkes Interesse an ähnlichen Handlungen und bin auf ein Projekt namens pauvre gestoßen (französisch für "arm", auf "Pore spielen") ') durch die Community von Oxford Nanopore Technologies (ONT), die meiner Meinung nach sogar besser ist als MinKNOWs Basis-Calling-Plot. Außerdem können Sie diese Diagramme im Gegensatz zu MinKNOW jederzeit aus einer Fastq-Datei generieren.
[Hinweis: Ich bin nicht der ursprüngliche Autor, aber ich trage jetzt bei, weil ich es mochte (und brauchte).]
Pauvre meldet auch nützliche Statistiken:
fastq-Statistiken für fastq_runid_bb8b8ddedb22bdd6802b2bfa2b4e424c92c30d28_0.fastqnumReads: 2164829numBen : 1495.0minLen: 5maxLen: 392031N50: 3450L50: 402786 Basenpaare > = bin durch Mittelwert PHRED und LängeminLen Q0 Q5 Q10 Q15 Q17.5 Q20 Q21.5 Q25 Q25.5 Q30 0 4970615217 4970611559 483546177 38108 270324 160128 50729 50729 0 0 0 0100000 6260554 6260554 0 0 0 0 0 0 0 0150000 3504240 3504240 0 0 0 0 0 0 0 0200000 2501101 2501101 0 0 0 0 0 0 0 0
250000 1609592 1609592 0 0 0 0 0 0 0 0300000 1033423 1033423 0 0 0 0 0 0 0 0350000 392031 392031 0 0 0 0 0 0 0 0 Anzahl der Lesevorgänge > = bin im Mittel Phred + LenminLen Q0 Q5 Q10 Q15 Q17.5 Q20 Q21.5 Q25 Q25.5 Q30 0 2164829 2164605 2083436 1626706 1183812 435687 77341 1 0 0 50000 109 109 5 3 1 1 0 0 0 0100000 36 36 0 0 0 0 0 0 0150000 15 15 0 0 0 0 0 0 0 0 0000000 9 9 0 0 0 0 0 0 0 0250000 5 5 0 0 0 0 0 0 0300000 3 3 0 0 0 0 0 0 0 0350000 1 1 0 0 0 0 0 0 0 0
Diese Diagramme und Statistiken wären mit PacBio gleichermaßen nützlich, aber das ist nicht super Einfach (obwohl möglich) mit der aktuellen Rohausgabe des Sequel-Sequenzers: Welche Qualitätsfaktor-Codierung verwendet PacBio?
Pauvre verwendet derzeit Biopython Um das Fastq und die matplotlib
für das eigentliche Diagramm zu analysieren, können Sie das Ausgabebildformat auswählen (z. B. .png, .pdf usw.). Sie können auch wählen, ob der Hintergrund transparent oder weiß ist (für die PNG-Ausgabe).
Der Parser ist derzeit sehr langsam, da er SeqIO.parse
verwendet. Wir ändern jedoch die Parser, um dies zu beschleunigen. Wir fügen auch einige zusätzliche Funktionen hinzu (z. B. wählen Sie, ob y-Achsen in Randhistogramme aufgenommen werden sollen, drucken Sie einige Statistiken zur Dokumentation direkt in das Diagramm usw.)
Lila ist derzeit die einzige Farbauswahl (die ich persönlich liebe), aber das Hinzufügen von Änderungsoptionen ist sehr einfach.