Frage:
Wie gehe ich mit Heterozygotie beim Polieren der Genomassemblierung auf der Grundlage langer Lesevorgänge um?
Kamil S Jaron
2017-05-21 16:49:59 UTC
view on stackexchange narkive permalink

Alle Long-Read-Sequenzierungsplattformen basieren auf Einzelmolekülsequenzierung, was zu höheren Fehlerraten pro Base führt. Aus diesem Grund wurde den Pipelines für die Genomassemblierung ein Polierschritt hinzugefügt - das Zuordnen von Rohdaten zu der Assemblierung und das Korrigieren von Details der Assemblierung.

Ich habe einen anständigen PacBio-RSII-Datensatz eines einzelnen Genoms stark heterozygoter Nichtmodellspezies . Die Assemblierung verlief gut, aber als ich versuchte, die Assemblierung mit Köcher zu polieren, konnte sie nicht über ein paar Iterationen konvergieren, und ich wette, das liegt an der zu großen Divergenz der Haplotypen.

Gibt es eine andere Möglichkeit, ein Genom mit solchen Eigenschaften zu polieren? Gibt es beispielsweise eine Möglichkeit, lange Lesevorgänge nach Haplotyp zu trennen, sodass ich nur mit einem Haplotyp polieren kann?

Zwei antworten:
#1
+4
roblanf
2017-05-22 08:36:12 UTC
view on stackexchange narkive permalink

Einige Möglichkeiten:

Falcon

Probieren Sie Falcon und Falcon-Unzip aus. Diese sind genau auf Ihr Problem und Ihre Daten zugeschnitten: https://github.com/PacificBiosciences/FALCON

Nicht Falcon

Wenn Sie der Meinung sind, dass Sie Haplotypen zusammengestellt haben (was bei ausreichender Abdeckung zu erwarten ist), sollten Sie die beiden Haplotypen sehen können, indem Sie einfach alle paarweisen Ausrichtungen Ihrer Contigs durchführen. Haplotypen sollten als Contig-Paare auftreten, die VIEL ähnlicher sind (selbst bei starker Divergenz zwischen den Haplotypen) als andere Paare. Sobald Sie alle diese Paare haben, können Sie einfach eines von jedem Paar zum Polieren auswählen.

Ich habe tatsächlich beide Haplotypsequenzen. Ich habe sie mit dem Tool [haplomerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592) erhalten. Dieses Werkzeug erzeugt jedoch eine chimäre haploide Anordnung, daher handelt es sich nicht wirklich um korrekt abgestufte Haplotypen. Falcon-Unzip ist in der Tat eine Software, die funktionieren könnte. Es war zu jung, um es zu versuchen, aber ich könnte versuchen, es jetzt noch einmal zu versuchen.
#2
+3
gringer
2017-05-22 13:12:38 UTC
view on stackexchange narkive permalink

Sie können auch Canu ausprobieren. Es wurde für die Assemblierung mit langem Lesen (sowohl PacBio als auch Nanopore) entwickelt, jedoch nicht speziell für die komplexe Populationssequenzierung. Es versucht, ein Genom in seine einzigartigen Komponenten zu zerlegen, und generiert Pfade aus den Komponenten, die von den Lesevorgängen gut unterstützt werden.

In Bezug auf das Polieren scheint dies beim Polieren nicht der Fall zu sein konvergieren, und es wird viele Varianten geben, die nur zwischen zwei Möglichkeiten oszillieren. Für mich und mindestens eine andere Person bei London Calling in diesem Jahr gab es im Grunde keinen Genauigkeitsgewinn beim Polieren nach der dritten Iteration. Ich habe meinen eigenen Fehlerkorrekturalgorithmus verwendet, aber sie haben das "Standard" -Polieren mit Pilon verwendet. Für das, was es wert ist, verwendete das Nanoporen-WGS-Konsortium Racon zum Polieren seiner Canu-Baugruppen.

Ich habe das Genom tatsächlich mit Canu zusammengesetzt, ich habe ~ 2x haploide Größe des Genoms erhalten, das ich zusammengebrochen habe, um die Verwendung von [HaploMerger2] (http://www.ncbi.nlm.nih.gov/pubmed/22555592) zu haplotypisieren .I wissen, dass die Montage weltweit gut ist. Es muss nur poliert werden.
Oh ja. Entschuldigung, ich habe mir die erste Antwort angesehen und angenommen, dass es sich nur um eine Montage handelt. Mir ist jetzt klar, dass es bei der Frage eher um * Polieren * als um Montage ging.
@gringer Ich habe auch versucht, eine sehr heterozygote Genomassemblierung (von canu generiert) mit Racon zu polieren (Quiver würde Haplotypen kollabieren), konnte aber keine zufriedenstellende Ausgabe erzielen (im Grunde hat sich keine Statistik geändert). irgendein Rat?
Meine allgemeine Empfehlung im Moment wäre, Nanopolish im Methylierungsmodus zur Korrektur zu verwenden, dann liest Pilon mit Illumina, um * nur * die Homopolymerfragmente zu korrigieren (d. H. Keine SNP-Korrektur und kein Langstreckengerüst). Basierend darauf: https: //github.com/rrwick/Basecalling-comparison#methylation


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...