Frage:
STAR-lange Parameter für die Ausrichtung von RNA ONT-Reads auf das Genom
aechchiki
2017-08-31 03:25:48 UTC
view on stackexchange narkive permalink

Gibt es vorgeschlagene Parameter, um ONT-Lesevorgänge mit STAR-long an das Referenzgenom anzupassen? Im Moment habe ich die hier vorgeschlagenen Parameter verwendet, aber ich habe ein seltsames Verhalten bemerkt.

Ich habe RNA-Reads ( D. melanogaster ) von R7 und R9 Flusszellen getrennt. Ich habe nur ausgewählt, um 2D Lesevorgänge in der Kategorie pass zu analysieren.

Ich habe 113249 Lesevorgänge für R7 und 40318 Lesevorgänge für R9 . Ich habe diese Lesevorgänge ausgerichtet und (nur!) 150 eindeutig zugeordnete Lesevorgänge für R7 -Daten und 8017 eindeutig zugeordnete Lesevorgänge für R9 -Daten erhalten. Ich habe versucht, denselben Befehl auf einem anderen Server mit neuer Kompilierung erneut auszuführen, aber die Ausgabedatei stimmt mit diesen 150 Lesevorgängen überein.

Wenn ich jedoch dasselbe mit GMAP ausrichte, erhalte ich 78016 eindeutig zugeordnete Lesevorgänge für R7 und 33523 eindeutig zugeordnete Lesevorgänge für R9 , also vermute ich dass beim Ausrichtungslauf etwas schief gelaufen ist.

Mir ist bewusst, dass sich die beiden Mapper sehr unterschiedlich verhalten, wobei STAR-long präziser ist und lieber Mappings mit weniger Lesevorgängen, aber an besseren Orten meldet, und GMAP insgesamt weniger präzise ist und versucht, das meiste davon abzubilden das liest sich aber an nicht so guten orten.

Ich habe mich gefragt, ob einige von Ihnen Erfahrung damit haben und mir die besten Parameter für RNA-Reads von ONT vorschlagen könnten?

Ich denke, meine Antwort wäre als Kommentar angemessener - aber ich kann nicht. Ich bin mir nicht sicher, ob diese Einstellung von SE Sinn macht, aber was auch immer. Dies ist nicht unbedingt eine Lösung für das Verhalten, das Sie sehen, aber ich würde vorschlagen, https://github.com/lh3/minimap2 für die cDNA-seq-Ausrichtung zu versuchen.
Bei meiner Hand funktioniert STAR-long nicht gut mit lauten Lesevorgängen. Es funktionierte für iso-seq hauptsächlich, weil die Fehlerrate von iso-seq-Lesevorgängen viel niedriger ist.
Einer antworten:
#1
+5
gringer
2018-01-17 11:00:30 UTC
view on stackexchange narkive permalink

Ich habe mit minimap2 großartige Ergebnisse erzielt, insbesondere in Kombination mit einer Vorbehandlung von Canu zur Fehlerkorrektur (mit minimap2 für das Read-to-Read-Mapping ):

  # korrekte Lesevorgänge ~ / install / canu / canu-1.6 / Linux-amd64 / bin / canu overlapper = minimap \ Genomgröße = 100M minReadLength = 100 minOverlapLength = 30 -correct \ -p 4T1_BC06 -d 4T1_BC06 \ -nanopore-raw workspace / pass / barcode06 / fastq_runid _ *. x Spleiß < (pv all / 4T1_BC06 / 4T1_BC06.correctedReads.fasta.gz) | \ samtools sort > 4T1_BC06_all_vs_mmusAll.bam  

Update: Der neueste Nanoporen-Basisanrufer in Kombination mit der neuesten Minikarte2 scheint nun gute Arbeit mit Mapping und Vorkorrektur der Lese-Nr länger scheint notwendig. In jüngerer Zeit habe ich LAST verwendet, um das Transkriptom abzubilden, und minimap2, um das Genom abzubilden. Minimap2 kann einen Homopolymer-komprimierten Genomindex verwenden, was bedeutet, dass der häufigste konsistente Fehler beim Lesen von Nanoporen (d. H. Eine Fehleinschätzung der Homopolymerlänge) die Kartierungsrate nicht beeinflusst.

Ja, ich habe auch minimap2 verwendet, danke. Zum Zeitpunkt dieser Frage habe ich nur versucht zu überprüfen, ob ich mit Parametern für STAR Unsinn gemacht habe oder ob sein Verhalten einfach auf seinen Algorithmus zurückzuführen ist. Haben Sie bei der Korrektur von Lesevorgängen keine Angst davor, die Indel-Zusammensetzung Ihrer Lesevorgänge zu ändern, wenn Sie Canu verwenden?
Nein ... warum sollte das ein Problem sein? Canu korrigiert Fehler basierend auf dem Konsens überlappender Lesevorgänge. Ich verstehe nicht, warum / wie diese Korrektur mehr Probleme verursachen würde, als sie löst.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...