Frage:
Warum ist bwa-mem der Standardalgorithmus bei der Verwendung von bwa?
terdon
2017-06-03 18:58:27 UTC
view on stackexchange narkive permalink

Der Industriestandard für die Ausrichtung kurzer Lesevorgänge scheint bwa-mem zu sein. In meinen Tests habe ich jedoch festgestellt, dass die Verwendung von bwa backtrack (bwa-aln + bwa-sampe + bwa-samse) eine bessere Leistung erbringt. Es ist etwas langsamer, liefert jedoch sowohl hinsichtlich der Empfindlichkeit als auch der Spezifität signifikant bessere Ergebnisse. Ich habe es unter Verwendung des Genoms in Flaschendaten und öffentlichen Proben (unter anderem NA12878 und NA12877) getestet und festgestellt, dass der Backtrack bwa-mem durchweg übertraf.

Warum ist bwa-mem der Standard? Bin ich falsch und andere Tests haben das Gegenteil gezeigt? Ich sehe nicht wirklich wie, seit ich mit den gängigsten Datensätzen und Validierungsdaten getestet habe. Ist es so, dass die leichte Steigerung der Effizienz die Abnahme der Leistung überwiegt?

Die einzige andere Erklärung, die ich sehen kann, ist, dass der bwa-Backtrack speziell für Illumina-Lesevorgänge entwickelt wurde und alle meine Tests mit Illumina-Daten durchgeführt wurden. Ist es nur so, dass bwa-mem "Sequenzer-Agnostiker" ist? Damit wir unabhängig von der verwendeten Sequenzierungsplattform denselben Algorithmus verwenden können? In diesem Fall ist es sinnvoll, den Backtrack zu verwenden, wenn wir nur mit Illumina-Daten und Mem arbeiten, wenn wir unterschiedliche Sequenzer haben können. Aber wenn ja, da Illumina so weit verbreitet ist, warum wird der Backtrack nicht häufiger für Illumina-Daten verwendet? Ich habe das Gefühl, ich muss etwas vermissen.

Heng Li wäre die beste Person, um darauf zu antworten. Es könnte sich auch lohnen, vorhandene Benchmarks zu zitieren oder Details zu den von Ihnen durchgeführten Benchmarks anzugeben.
Es gibt immer auch das bwa-Mem-Papier https://arxiv.org/pdf/1303.3997.pdf
@MatthewBashton ja, ich weiß. Leider habe ich sie nicht in einer Form, die leicht zu zeigen ist, und ich habe sie vor mehr als einem Jahr ausgeführt, sodass sie möglicherweise nicht mehr relevant sind. Ich hoffe, dass andere ähnliche Probleme gesehen haben und wissen, warum eines dem anderen vorgezogen wird. Oder dass ein Übersichtsartikel veröffentlicht wurde, in dem sie verglichen wurden und mein Pubmed-Fu mich einfach im Stich gelassen hat. Wenn nicht, werde ich sie wahrscheinlich selbst wiederholen, genauer untersuchen und eine neue Frage stellen.
Was ist Ihre Leselänge? http://bio-bwa.sourceforge.net empfiehlt mem als am besten für> 70 bp. Es wäre interessant, einen reproduzierbaren Benchmark zu sehen, wenn Sie etwas anderes gefunden haben
@blmoore ist es meistens ~ 150nt im Durchschnitt. Genau deshalb war ich überrascht, das zu sehen. Mir ist jedoch klar, dass es für Sie schwierig ist, nur mein Wort dafür zu nehmen, wenn ich meine Daten nicht zeige (die ich leider neu generieren muss). Ich hatte gehofft, dass dies ein bekanntes Problem war und ich war einfach unwissend.
Hallo @terdon; Unser Sequenzierung-Kernteam hat BWA-MEM vs Backtrack für mehrere Datensätze untersucht und festgestellt, dass MEM sowohl schneller als auch genauer als Backtrack ist. Wir haben auch festgestellt, dass die Leistung des Tail-Backtracks stark leidet, wenn Sie erhebliche Qualitätsverluste bei der Leistung des Tail-Backtracks haben ... und das ist ein weiterer Vorteil von MEM: Sie benötigen kein Qualitäts-Trimmen, bei dem der Backtrack Lesevorgänge in voller Länge abbilden muss , die wir unabhängig von und zusätzlich zu Heng Li beobachtet haben (siehe [diesen Thread] (https://www.biostars.org/p/90149/)).
@WyattMcDonnell danke, das sieht interessant aus, obwohl ich Probleme habe, diese Art von chaotischem Thread zu lesen. Glaubst du, du könntest mit diesen Punkten eine Antwort finden?
Unsere Abteilung verwendet den bwa-Backtrack auch für die Sequenzierung von Beleuchtungsdaten. Nebenbei bemerkt, minimap2 (geschrieben von heng li) übertrifft bwa mem bei langen Lesevorgängen, sodass ich Probleme habe herauszufinden, wo bwa mem ins Bild fällt.
Eng verwandt (wohl ein Duplikat): https://bioinformatics.stackexchange.com/q/15/3144. Es gibt jedoch immer noch keinen empirischen Vergleich der Wirksamkeit der beiden Ansätze, wie sie das OP hier gefordert hat.
Mögliches Duplikat von [Unterschied zwischen BWA-Backtrack und BWA-MEM] (https://bioinformatics.stackexchange.com/questions/15/difference-between-bwa-backtrack-and-bwa-mem)
Einer antworten:
#1
+7
gringer
2017-06-04 12:38:44 UTC
view on stackexchange narkive permalink

bwa mem ist neuer, schneller und [sollte] genauer sein, insbesondere für längere Lesevorgänge.

Auf der Manpage bwa ( vermutlich in Heng Lis eigenen Worten):

BWA ist ein Softwarepaket zur Kartierung von Sequenzen mit geringer Divergenz gegen ein großes Referenzgenom wie das menschliche Genom. Es besteht aus drei Algorithmen: BWA-Backtrack, BWA-SW und BWA-MEM. Der erste Algorithmus ist für Illumina-Sequenz-Reads bis zu 100 bp ausgelegt, während die restlichen zwei für längere Sequenzen zwischen 70 bp und 1 Mbp lagen. BWA-MEM und BWA-SW haben ähnliche Funktionen wie Long-Read-Unterstützung und Split-Alignment, aber BWA-MEM, das neueste, wird im Allgemeinen für qualitativ hochwertige Abfragen empfohlen, da es schneller und schneller ist genau. BWA-MEM hat auch eine bessere Leistung als BWA-Backtrack für Illumina-Lesevorgänge mit 70-100 bp.

Ja, ich weiß, dass er das behauptet. Das habe ich einfach nicht gesehen. Haben Sie Benchmarks oder einen Übersichtsartikel oder etwas, das zeigt, dass bwa-mem tatsächlich genauer ist?
Heng Lis Artikel über BWA ist [hier] (https://arxiv.org/abs/1303.3997). Es vergleicht die Genauigkeit von BWA-MEM mit BWA-SW und zeigt, dass BWA-MEM eine höhere Anzahl von zugeordneten Lesevorgängen bei gleicher Anzahl von nicht zugeordneten Lesevorgängen aufweist (siehe 1).
Ja, aber er vergleicht es nicht mit bwa backtrack, worüber ich frage.
[Brian Bushnell] (https://www.biostars.org/p/199625/#199627) scheint zu glauben, dass BWA-MEM genauer ist als BWA-Backtrack.
Ja, viele Leute tun es. Aber ich habe niemanden gesehen, der dies bestätigt, und meine Tests haben gezeigt, dass dies nicht der Fall ist.
Um fair zu sein, haben Sie auch keine Beweise dafür vorgelegt. Es wäre großartig, wenn Sie Ihrer Frage ein Diagramm oder andere Ergebnisse hinzufügen könnten (vorzugsweise mit einem herunterladbaren Lese- / Referenzsatz).
Ja in der Tat. Ich sollte meine Daten zeigen. Um ehrlich zu sein, habe ich das vor mehr als einem Jahr gemacht und habe sie einfach nicht mehr. Es ist absolut möglich, dass ich falsch liege und es gibt überhaupt keinen Grund für jemanden, mir zu glauben, nur weil ich es sage. Ich hatte gehofft, jemand könnte mit eigenen Benchmarks oder, noch besser, mit einem von Experten begutachteten Artikel antworten, der Vergleichsdaten zeigt.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...