Frage:
Wie kann ich Strukturvarianten (SVs) aus Pair-End-Short-Read-Resequenzierungsdaten aufrufen?
Kamil S Jaron
2017-05-18 19:28:48 UTC
view on stackexchange narkive permalink

Ich habe ein Referenzgenom und möchte jetzt Strukturvarianten aus Illumina-Pair-End-Daten zur Sequenzierung des gesamten Genoms (Insert-Größe 700 bp) aufrufen.

Es gibt viele Tools für SV-Aufrufe (ich habe unten eine unvollständige Liste der Tools erstellt). Es gibt auch ein Tool zum Zusammenführen von SV-Aufrufen aus mehreren Methoden / Beispielen - SURVIVOR. Gibt es eine Kombination von Methoden zur SV-Erkennung mit einem optimalen Gleichgewicht zwischen Sensitivität und Spezifität?

Es gibt ein Benchmarking-Papier, in dem die Sensitivität und Spezifität von SV-Aufrufen einzelner Methoden mithilfe eines simulierten Paares bewertet wird -end liest. Die Kombination der Methoden wird jedoch nicht näher erläutert.

Liste der Tools zum Aufrufen von Strukturvarianten:

Ich werde nur einen Kommentar hinzufügen, da dies keine vollständige Antwort ist. Überprüfen Sie das Genom in einer Flasche Konsortium. Derzeit wird diskutiert, wie die besten Anrufer und Definitionen für einen Standardsatz von Anrufen zum Benchmarking und Testen neuer Ansätze ermittelt werden können. In meiner Arbeit hatte ich gute Ergebnisse mit Sokrates, jetzt ersetzt durch [GRIDSS] (https://github.com/PapenfussLab/gridss).
@nuin - Ich wusste nichts über Genom in einem Flaschenkonsortium, sieht interessant aus, konnte aber keine öffentliche Aufzeichnung einer Diskussion finden. Hast du einen Link?
Zwei antworten:
#1
+6
roblanf
2017-05-19 15:18:41 UTC
view on stackexchange narkive permalink

Ich denke, die beste Methode oder Kombination von Methoden hängt von Aspekten der Daten ab, die von Datensatz zu Datensatz unterschiedlich sein können. Z.B. Art, Größe und Häufigkeit der Strukturvarianten, Anzahl der SNVs, Qualität der Referenz, Verunreinigungen oder andere Probleme (z. B. Lesequalität, Sequenzierungsfehler) usw.

Aus diesem Grund würde ich annehmen Zwei Ansätze:

  1. Probieren Sie viele Methoden aus und sehen Sie sich deren Überlappung an.
  2. Validieren Sie eine Teilmenge von Aufrufen aus verschiedenen Methoden durch Nasslaborexperimente - am Ende ist dies die Nur eine echte Methode, um die Genauigkeit für einen bestimmten Fall zu ermitteln.
  3. ol>
Was meinen Sie mit "Überprüfen einer Teilmenge von Aufrufen aus verschiedenen Methoden"?
Komisch, das Review Paper (Sim-Daten) stimmt Ihnen irgendwie zu - alle Methoden haben viele falsch positive Ergebnisse - es ist besser, Überschneidungen vorzunehmen. Das Papier "Eine integrierte Karte der strukturellen Variation" (Germains Antwort) hat jedoch das Gegenteil bewirkt: Jede Software wurde optimiert, um Fehlalarme zu reduzieren, und dann alle genommen.
Mit validieren meine ich, gehen Sie hinein und sequenzieren Sie eine Reihe vorhergesagter Varianten neu. Alle bioninformatischen Methoden liefern viele falsch positive (und viele falsch negative) Ergebnisse, obwohl es natürlich schwieriger ist, die negativen zu finden. Der einzige echte Weg, um die Genauigkeit Ihrer Anrufe zu ermitteln, besteht darin, unabhängige Informationen zu erhalten, z. von der erneuten Sequenzierung.
#2
+3
German Demidov
2017-05-20 13:33:59 UTC
view on stackexchange narkive permalink

Wenn Sie wirklich darauf bedacht sind, perfekte Ergebnisse zu erzielen, können Sie die dort beschriebene Strategie in 1000GP 3rd Phase SV-Erkennungspapier verwenden. Verwenden Sie diese Tools, validieren Sie Ihre Anrufe mit dem IRS-Test und führen Sie Anrufe zusammen in ein Callset.

Wenn Sie nicht Tausende von Arbeitsstunden verbringen möchten, wie sie während dieser Papiervorbereitung verbracht wurden, ist es meiner Erfahrung nach besser, 1 Methode zum Einfügen von Paaren und eine Methode zum Lesen der Tiefe zu verwenden. Jeder von ihnen deckt "verschiedene" Regionen im Genom ab. (Auch wenn sie eine große Überlappung aufweisen, erfordert die Erkennung von gepaarten Enden, dass sich beide SV-Haltepunkte innerhalb der Regionen mit guter Abbildbarkeit befinden, was nicht immer der Fall ist, aber die Auflösung von Lesetiefenmethoden ist im Allgemeinen geringer, gepaarte Enden funktionieren gut für Löschungen / Tandem-Duplikationen / Inversionen, haben jedoch Probleme mit Nicht-Tandem-Duplikationen.

Hoffe, es hilft.

Ich habe die Beilage des Papiers durchgesehen, es ist wirklich verrückt - es scheint, dass es sehr wenig Überschneidungen zwischen verschiedenen Berechnungsmethoden gibt, aber die Falschentdeckungsrate ist für Nicht-Inversions-SV-Typen ziemlich gut (2 - 10%). Sie haben jedoch einen riesigen Bevölkerungsdatensatz verwendet. Ich habe eine Sequenzierung von 9 Personen einschließlich der Referenz.
Ja, die Überlappung ist ein bisschen gering, aber dies liegt hauptsächlich daran, dass verschiedene Tools nach unterschiedlichen Arten von CNVs suchen (wie ich oben beim Vergleich der auf Lesetiefe und Einfügungsentfernung basierenden Methoden erläutert habe). Dies ist die beste Genauigkeit, die Sie erhalten können. Mit nur 9 Personen sollten Sie CNVs mit einer Häufigkeit von> 1% in der Bevölkerung besser ausschließen (siehe Artikel) und dann z. B. DELLY und cn.mops verwenden (nur ein Beispiel, nicht sicher, ob dies eine ideale Wahl ist, aber beide sind ziemlich gut).


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...