Frage:
Verbessern Sie ein Referenzgenom mit Sequenzierungsdaten
Scott Gigante
2017-05-18 08:11:37 UTC
view on stackexchange narkive permalink

Ich habe eine DNA-Probe, von der ich weiß, dass sie nicht zu meinem Referenzgenom passt - meine Kultur stammt aus einer Subpopulation, die seit der Erstellung der Referenz eine signifikante Mutation erfahren hat.

Nach der Sichtprüfung mit IGV scheint eine erhebliche Anzahl von SNPs und SVs vorhanden zu sein, aber eine Baugruppe, die vollständig aus meinen eigenen Sequenzierungsdaten besteht, ist für meine Zwecke nicht qualitativ genug.

Wie kann ich dieses Referenzgenom so modifizieren, dass meine Probe mit neuen Sequenzierungsdaten übereinstimmt (vorzugsweise mit langen Lesevorgängen von Oxford Nanopore Technologies, aber ich kann diese bei Bedarf auch verwenden, um kurze Lesevorgänge durchzuführen), wobei ich mein Wissen nutze dass die vorhandene Referenz meistens sehr gut ist, ohne auf die Lesevorgänge zugreifen zu müssen, die ursprünglich zur Konstruktion des Referenzgenoms verwendet wurden?

Wie können Sie jemals einer Assembly wirklich vertrauen, wenn die Eingabedatenquellen so unterschiedlich sind, wie Sie sagen (erhebliche Menge an SNP- und Strukturvarianten)?
Gibt es einen Grund, warum Sie keine neue Referenz erstellen möchten? Ein MinION-Lauf erzeugt ~ 5 Gbit / s Daten, was bedeutet, dass Sie selbst dann, wenn Sie Ihre Proben mit einem Barcode versehen, eine ausreichende Abdeckung haben sollten, um das Genom de-novo zu erstellen. Was ist das Ziel des Projekts? Bearbeiten: Angenommen, Sie arbeiten mit einigen Bakterien
Das Beispiel, an das ich denke, ist E. coli, ja. Wir haben versucht, die Montage mit verschiedenen Werkzeugen durchzuführen, und die De-novo-Montage ist trotz Tonnen von Daten nicht so hochwertig, wie wir es gerne hätten. Wenn man dies aus Bayes'scher Sicht betrachtet, liefert das Referenzgenom einen sehr guten Stand, wenn wir es mit Bedacht einsetzen könnten.
Es ist gut vor, aber wenn das Ziel des Projekts darin besteht, herauszufinden, wie viele SVs sich angesammelt haben, werden Sie durch referenzbasierte Assemblierung die Ausgabe verzerren. Es ist auch nicht klar, was "hohe Qualität" bedeutet.
Das Ziel des Projekts ist nicht zu bestimmen, wo sich die SVs befinden. Ich benötige lediglich eine Referenz, die meine Stichprobe genau wiedergibt, um die Daten für die nachgelagerte Analyse zu verwenden (als Trainingssatz für maschinelles Lernen). Also durch eine qualitativ hochwertige Referenz Ich meine eine, die die sequenzierte Probe so gut wie möglich darstellt. Um die Sache noch schlimmer zu machen, ist dies möglicherweise nicht diejenige mit der höchsten Ausrichtungsidentität, wenn systematische Sequenzierungsfehler auftreten, wie bei der Nanoporen-Sequenzierung!
Fünf antworten:
#1
+4
roblanf
2017-05-18 16:07:14 UTC
view on stackexchange narkive permalink

Ein Ansatz hierfür besteht darin, alle Daten zu verwenden, die Sie zur iterativen Aktualisierung des Referenzgenoms benötigen. Sie können Kettendateien auf dem Weg behalten, um Koordinaten (z. B. in GFF-Dateien) von der ursprünglichen Referenz in Ihre neue Pseudoreferenz zu konvertieren.

Ein einfacher Ansatz könnte sein:

  1. Neue Daten an vorhandener Referenz ausrichten
  2. Varianten aufrufen (z. B. samtools mpileup, GATK oder was auch immer für Sie am besten ist)
  3. Erstellen Sie eine neue Referenz mit Varianten aus 2
  4. Spülen und wiederholen (dh zu 1 gehen)
  5. ol>

    Sie können dabei einige einfache Statistiken verfolgen - z Die Anzahl neuer Varianten sollte abnehmen, die Anzahl der zugeordneten Lesevorgänge sollte zunehmen und die Nichtübereinstimmungsrate sollte mit jeder Iteration der obigen Schleife abnehmen. Sobald sich die Pseudoreferenz stabilisiert hat, wissen Sie, dass Sie nicht mehr viel tun können.

#2
+4
Daniel Standage
2017-05-21 12:43:44 UTC
view on stackexchange narkive permalink

Abhängig von der Abdeckung Ihrer Daten und der Komplexität des Genoms können Sie entweder das Genom de novo wieder zusammensetzen oder eine referenzgeführte (oder referenzunterstützte) Baugruppe ausführen. Es hört sich so an, als würden Sie sich eher zu Letzterem neigen.

Es stehen einige referenzgesteuerte Montagewerkzeuge zur Verfügung: AlignGraph und Ragout. Diese können je nach dem interessierenden Organismus und Ihren Datentypen angemessen sein oder auch nicht. Beispielsweise ist es sehr unwahrscheinlich, dass diese Tools bei Oxford Nanopore-Lesevorgängen gut funktionieren, die mit Nanopolish oder Canu -correct nicht fehlerkorrigiert wurden.

Ich kann dieses Tool hinzufügen, Ragout: https://www.ncbi.nlm.nih.gov/pubmed/24931998, und es gibt eine Menge nützlicher Referenzen in dem Papier. Auch wenn der Titel des Papiers besagt, dass es mit Bakteriengenomen funktionieren soll, funktioniert es auch mit Säugetiergenomen
#3
+3
madhu bioinfo
2017-05-18 10:29:39 UTC
view on stackexchange narkive permalink

Sie können Nanopolish mit den Illumina-Reads verwenden. Schauen Sie sich auch Pilon an.

#4
+3
haegglund
2017-05-18 10:38:32 UTC
view on stackexchange narkive permalink

Wenn es sich um eine Baugruppe mit kurzen Lesevorgängen handelt und Sie lange Lesevorgänge (ONT oder Pacbio) haben, führen Sie Links aus, um das Genom zu gerüsten, und führen Sie dann iterativ Pilon aus, um es zu versuchen Lücken mit den Short-Reads zu polieren und zu füllen.

#5
  0
bedeabc
2017-08-05 00:08:29 UTC
view on stackexchange narkive permalink

Kindel (das ich geschrieben habe) kann einen Konsens aus der Ausrichtung von kurzen Lesevorgängen von geringer Qualität auf virale Referenzen ableiten, und die Erweiterung auf Einzelmolekül-Lesevorgänge und größere Genome steht auf meiner To-Do-Liste. obwohl ich mir vorstelle, dass dies eine Neugestaltung erfordert.
Vermutlich handelt es sich in diesem Fall um ein Bakterien- oder Pilzgenom? Ich habe auch eine grundlegende C ++ - Version, aber es ist weit davon entfernt, benutzerfreundlich zu sein. Auf jeden Fall kann es einen Blick wert sein - zögern Sie nicht, sich mit Problemen in Verbindung zu setzen, auf die Sie stoßen. Ich würde Pilon wie oben erwähnt verwenden



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...