Frage:
Wie kann ich eine lang gelesene Baugruppe mit einem sich wiederholenden Genom verbessern?
gringer
2017-05-25 16:46:36 UTC
view on stackexchange narkive permalink

Ich versuche derzeit, ein Genom aus einem Nagetierparasiten, Nippostrongylus brasiliensis , zusammenzusetzen. Dieses Genom hat zwar ein vorhandenes Referenzgenom, ist jedoch stark fragmentiert. Hier sind einige Kontinuitätsstatistiken für die Gerüste des aktuellen Nippo-Referenzgenoms (zusammengestellt aus Illumina-Reads):

  Gesamtsequenzen: 29375Gesamtlänge: 294.400206 MbLängste Sequenz: 394.171 kbKurzeste Sequenz: 500 bMittellänge: 10.022 kbMedian Länge: 2,682 kbN50: 2024 Sequenzen; L50: 33,527 kbN90: 11638 Sequenzen; L90: 4,263 kb  

Dieses Genom ist höchstwahrscheinlich schwierig zusammenzusetzen, da sich die Genomsequenzen stark wiederholen. Diese sich wiederholenden Sequenzen werden in (mindestens) drei Klassen eingeteilt:

  1. Tandem-Wiederholungen mit einer Wiederholungseinheit Länge, die größer ist als die Leselänge von Illumina-Sequenzierern (z. B. 171 bp)
  2. Tandem-Wiederholungen mit einer kumulativen Länge, die größer ist als die Fragmentlänge von Illumina-Sequenzern oder die Template-Länge für verknüpfte Lesevorgänge (z. B. 20 kb)
  3. Komplex (dh nicht repetitive) Sequenz, die an mehreren Stellen im gesamten Genom auftritt
  4. ol>

    Canu scheint mit den ersten beiden Arten von Wiederholungen trotz der Fülle repetitiver Strukturen im Genom recht gut umzugehen. Hier ist die Zusammenfassung der Einheiten, die Canu für eine der Baugruppen erstellt hat, die ich versucht habe. Beachten Sie, dass etwa 30% der Lesevorgänge entweder eine lange Wiederholung umfassen oder eine lange Wiederholung enthalten:

      Kategorie liest% Leselänge Feature-Größe oder Abdeckungsanalyse -------------- - ------- ------- ---------------------- ------------ ------------ -------------------- Mitte fehlt 694 0,07 7470,92 + - 5552,00 953,06 + - 1339,13 (schlechtes Trimmen) Mitte -Hump 549 0,05 3770,05 + - 3346,10 74,23 + - 209,86 (schlechtes Trimmen) Nr. 5-Prim 3422 0,33 6711,32 + - 5411,26 70,92 + - 272,99 (schlechtes Trimmen)
    no-3-prime 3161 0,30 6701,35 + - 5739,86 87,41 + - 329,42 (schlechtes Trimmen) geringe Abdeckung 27158 2,59 3222,51 + - 1936,79 4,99 + - 1,79 (einfach zu montieren, Potenzial für einen Konsens von geringerer Qualität) einzigartig 636875 60,76 6240,20 + - 3908,44 25,22 + - 8,49 (einfach zu montieren, perfekt, yay) Wiederholung-Fortsetzung 48398 4,62 4099,55 + - 3002,72 335,54 + - 451,43 (potenzielle Konsensfehler, keine Auswirkung auf die Montage) Wiederholungstaube 135 0,01 16996,33 + - 6860,08 397,37 + - 319,52 (schwer zu montieren, wahrscheinlich nicht richtig oder gar nicht montiert) span-repeat 137927 13.16 9329.94 + - 6906.27 2630.06 + - 3539.53 (Lesen umfasst eine große Wiederholung, normalerweise leicht zu montieren) uniq-repeat-cont 155725 14.86 6529.83 + - 3463.16 (sollte eindeutig platziert sein, geringes Potenzial für Konsensfehler, keine Auswirkungen auf die Montage) uniq-repeat-dove 28248 2.70 12499 .99 + - 8446.95 (beendet Contigs, kann zu Fehlmontagen führen) uniq-anchor 5721 0.55 8379.86 + - 4575.71 3166.22 + - 3858.35 (wiederholtes Lesen mit eindeutigem Abschnitt, wahrscheinlich schlechtes Lesen)  

    Die dritte Art der Wiederholung macht mir jedoch ein bisschen Sorgen. Unter Verwendung der obigen Baugruppe sind hier die Kontinuitätsparameter aus den zusammengesetzten Contigs:

      Gesamtsequenzen: 3505Gesamtlänge: 322.867456 MbLängste Sequenz: 1.762243 MbKurzeste Sequenz: 2.606 kbMittellänge: 92.116 kbMedianlänge: 42.667 kbN50: 417 Sequenzen; L50: 194,126 kbN90: 1996 Sequenzen; L90: 35.634 kb  

    Es ist keine schlechte Assemblierung, insbesondere angesichts der Komplexität des Genoms, aber ich denke, es könnte durch die Behandlung der komplexen genomischen Wiederholungen verbessert werden in gewisser Weise. Ungefähr 60 MB der Contigs in dieser Assembly sind in einem riesigen Web miteinander verbunden (basierend auf der GFA-Ausgabe von Canu):

    60Mb linked structure from Canu GFA

    Die sich wiederholenden Regionen sind normalerweise länger als 500 bp, durchschnittlich etwa 3 kb, und ich habe mindestens einen Fall gesehen, bei dem es sich anscheinend um eine 20 kb-Sequenz handelt, die in mehreren Regionen dupliziert wurde.

    Die Canu-Standardeinstellungen scheinen dies zu sein Geben Sie die besten Montageergebnisse für die wenigen Parameter an, die ich ausprobiert habe, mit einer Ausnahme: Trimmen. Ich habe versucht, ein wenig mit den Trimmparametern herumzuspielen, und seltsamerweise scheint eine Trimmabdeckung von 5X (mit einer Überlappung von 500 bp) eine zusammenhängendere Anordnung zu ergeben als eine Trimmabdeckung von 2X (mit derselben Überlappung).

    Wenn jemand daran interessiert ist, sich diese Daten selbst anzusehen, finden Sie hier sogenannte FASTQ-Dateien aus Nippo-Sequenzierungsläufen. Ich bin noch dabei, die rohen Nanoporen-Signaldateien hochzuladen, aber sie werden in den nächsten Wochen im Zusammenhang mit dem ENA-Projekt PRJEB20824 verfügbar sein. Es gibt auch ein Zenodo-Archiv hier, das die GFA- und Assembly-Contigs enthält.

    Hat jemand andere Vorschläge, wie ich diese komplexen Wiederholungen lösen könnte?

Zur Verdeutlichung: Möchten Sie Computerlösungen oder sind Sie offen für eine erneute Sequenzierung mit bestimmten Techniken, um die Baugruppe zu verbessern?
Computerlösungen wären bevorzugt, aber eine erneute Sequenzierung kommt nicht in Frage.
Ich bin mit der Frage verwirrt. Es hört sich so an, als hätten Sie Statistiken aus einer Illumina-Baugruppe sowie Nanoporendaten, die nicht Teil der gemeldeten Statistiken sind. Die offensichtliche Antwort scheint also zu sein, z. Canu + Pilon (oder ähnliches), um eine bessere Zusammenstellung beider Datentypen zu versuchen. Aber ich vermute, das ist nicht das, wonach Sie suchen. Könntest Du das erläutern?
Ix Canu [dieser Assembler] (https://github.com/marbl/canu)? Wie sehen die Contigs der Versammlung mit Illumina aus? Es scheint, dass mit nanoPore die Montage viel besser ist.
Ja, ich kann die Illumina-Daten verwenden, um die Canu-Baugruppe zu korrigieren, aber das hilft nicht beim Auflösen der "Typ 3" -Wiederholungen. Die Regionen sind ausreichend ähnlich, so dass Illumina-Reads auf mehrere Punkte im Genom abgebildet werden.
Die Illumina-Contigs sind von hoher Qualität (d. H. Sie haben gute BUSCO-Werte, was auf wenige Variantenfehler hinweist), aber ziemlich kurz. Jeder Hauch einer Wiederholung und der Contig endet. Ich habe mehr als ein paar Beispiele für Regionen, in denen sich ein Illumina-Leser (sogar 10x verknüpfte Lesevorgänge) vor Angst zusammenkauert.
Selbst wenn Illumina-Contigs von hoher Qualität sind, bedeutet dies nicht, dass sie für ein so wiederholtes Genom gut funktionieren.
Einer antworten:
#1
+6
user172818
2017-05-30 04:41:53 UTC
view on stackexchange narkive permalink

Sie können 20 KB nahezu identische Wiederholungen / Segdups mit 10 KB Lesevorgängen nicht auflösen. Alles, was Sie tun können, ist, Ihr Glück auf ein paar übermäßig lange Lesevorgänge zu setzen, die zufällig einige Einheiten umfassen. Für abweichende Kopien lohnt es sich, dieses Papier zu lesen. Es verwendet Illumina-Lesevorgänge, um K-Mere in eindeutigen Regionen zu identifizieren, und ignoriert nicht eindeutige K-Mere in der Überlappungsphase. In dem Papier heißt es, dass diese Strategie besser ist als die Verwendung von Standard-Überlappern, die ich kaufe, aber wahrscheinlich kann sie auch ein 20-KB-Segdup mit einer Handvoll Fehlpaarungen nicht auflösen.

Solche auf Fehlpaarungen basierenden Ansätze haben immer Einschränkungen und funktioniert möglicherweise nicht für aktuelle Segdups / Wiederholungen. Die ultimative Lösung besteht darin, lange Lesevorgänge zu erzielen, die länger sind als bei Ihren Wiederholungs- / Segdup-Einheiten. Die ~ 100 KB Lesevorgänge im letzten Preprint werden für Sie ein Spielveränderer sein. Wenn Ihre ~ 20-KB-Wiederholungen kein Tandem sind, können auch die mit ~ 100 KB verknüpften Lesevorgänge von 10X hilfreich sein.

Wir haben bereits einige 100-KB-Lesevorgänge in unseren Beispielen, aber es sieht so aus, als würden wir möglicherweise mehr benötigen. Eine DNA-Probe wurde nach Canberra geschickt, um bei einem Nanopore-Schulungskurs (von einem Kollegen) sequenziert zu werden. Hoffentlich erhalten wir daraus gute, lange Lesungen.
"Ein paar" 100-KB-Lesevorgänge helfen nicht viel. Sie müssen das ultralange Protokoll anwenden, das sich vom Standardprotokoll unterscheidet.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...