Frage:
Gibt es einen Punkt bei der Neukalibrierung von Scores für Variantenaufrufe?
Kamil S Jaron
2017-06-01 03:33:00 UTC
view on stackexchange narkive permalink

Die GATK-Pipeline mit den meisten Varianten umfasst eine Base Quality Score Recalibration (BQSR), für die eine Liste bekannter Varianten erforderlich ist. In letzter Zeit wurden auch einige Arbeiten zur referenzfreien Neukalibrierung von Scores durchgeführt: Lacer und Atlas, die durch die optimale Nutzung von aDNA- und Datensätzen mit geringer Abdeckung motiviert sind.

Die Bedeutung für aDNA wird in dieser Vorlesung erläutert, aber mir ist nicht klar, ob / wie wichtig BQSR für frische DNA-Proben mit angemessener (> 15-facher) Abdeckung ist. Insbesondere wenn ich mit Nichtmodellorganismen arbeite und nicht einfach die Standardwerkzeuge verwenden kann.

Wie stark wirkt sich die Neukalibrierung von Scores auf das Aufrufen von Varianten aus? Gibt es eine Faustregel, für die es die Mühe wert ist?

Vier antworten:
#1
+5
burger
2017-06-02 03:07:27 UTC
view on stackexchange narkive permalink

Ich persönlich glaube nicht, dass BQSR einen großen Einfluss auf das Aufrufen von Varianten hat, aber Sie müssen nicht wirklich raten. Wenn Sie GATK BQSR ausführen, werden eine Tabelle und Diagramme ausgegeben, in denen genau angegeben ist, wie viele Qualitätsfaktoren angepasst wurden. Die Anpassung hängt von der Position im gelesenen und genomischen Kontext ab (vorherige und folgende Basis). Nach meiner Erfahrung beträgt der Unterschied höchstens einige Punkte, ist aber sicherlich spürbar.

GATK empfiehlt BQSR sowohl für Genom- als auch für Exomdaten, die normalerweise viel höher als 15x sind.

#2
+2
Manuel
2017-06-01 04:27:28 UTC
view on stackexchange narkive permalink

Das ist eine gute Frage.

Ich würde sagen, dass Sie sich nicht um die Neukalibrierung von Varianten für

  • geringe Anzahl von Proben (z. B. nur zwei) kümmern müssen Trios); Ich konnte die GTAK-Neukalibrierung von Varianten-Scores ohnehin nicht zum Funktionieren bringen.
  • Proben mit hoher Abdeckung (z. B. X Ten-Genome mit 30-facher Abdeckung), bei denen die DNA-Proben selbst von hoher, vergleichbarer Qualität sind und mit konsistenter Sequenziert wurden Technologie.

Generell habe ich den Eindruck, dass viele der in GATK integrierten Gedanken und fortschrittlichen statistischen Modelle aus früheren Phasen des 1000-Genom-Projekts stammen. Dies bedeutet (1) Genome mit geringer Abdeckung, (2) Genome mit unterschiedlicher Abdeckung (3), die mit unterschiedlichen Technologieversionen durch (4) unterschiedliche Proben und (5) Populationssequenzierung sequenziert wurden.

Wenn Sie sich in einer klinischen Umgebung befinden Wenn Sie ohnehin nur 30x auf X Ten-Plattformen sequenzieren, hilft Ihnen die Neukalibrierung von Varianten wahrscheinlich nicht so viel.

Wenn Sie dagegen viele Datensätze aus verschiedenen Rechenzentren und Maschinenversionen usw. integrieren Eine Neukalibrierung von Varianten ist möglicherweise einen Versuch wert.

Eine gute Überprüfung würde darin bestehen, die Verteilung der Genotypqualität und andere varianten- / qualitätsbezogene Metriken vor und nach der Neukalibrierung zu untersuchen.

Jeder: Bitte korrigieren ich, wenn ich falsch liege!

Sprechen Sie hier über die Neukalibrierung des Basisqualitätsfaktors (BQSR) oder über die Neukalibrierung des varianten Qualitätsfaktors (VQSR)? Ich denke, das OP bezieht sich auf BQSR, aber Sie diskutieren VQSR.
Ja, OP bestätigt. Die Frage bezieht sich auf BQSR, daher befürchte ich, dass Sie die falsche Frage beantworten.
* seufz * und da dachte ich, ich könnte etwas beitragen.
#3
+1
vchris_ngs
2017-06-06 16:07:56 UTC
view on stackexchange narkive permalink

Idealerweise wurden diese BQSR-Methoden unter Berücksichtigung der Tatsache durchgeführt, wie technische Fehler die Basisqualitätsaufrufe tatsächlich vermasseln und wann sich die Maschinen noch in der Entwicklungsphase befanden, während sie für das 1000G-Projekt verwendet wurden. Ab sofort sind Maschinen leistungsfähiger und leistungsfähiger, wenn es unwahrscheinlich ist, dass sie verwendet werden. Wir verwenden sie jedoch mit aufgelisteten SNPs, um die Kovariaten zu finden und ein Modell um die Daten herum zu erstellen, indem wir die Informationen mit Tricks des maschinellen Lernens verwenden, um die Qualität dieser Basisaufrufe zu verbessern . Idealerweise sollte es angemessener sein, wenn alte Maschinen von Illumina oder anderen Standardfirmen verwendet werden, aber bei neuen Maschinen, die sehr leistungsfähig sind und einen hohen Durchsatz haben, sollten sie dazu neigen, zu sinken. Ich erinnere mich nicht, ob solche Tests durchgeführt wurden, aber ich weiß natürlich, dass neue Sequenziermaschinen solche Tests immer durchführen, um zu zeigen, dass sie solche Fehler reduziert haben, aber dennoch einen solchen BQSR für Variantenaufrufe empfehlen. Das Problem ist nun die Liste der SNPs. Für mich ist dies das eigentliche Problem, da die Liste, die wir verwenden, weit davon entfernt ist, Goldstandard zu sein, und wenn dies nicht richtig erledigt wird, ist alles, was wir über Qualität schließen, immer noch wackelig. Dieser Link ist ziemlich informativ, aber er ist alt. Ich würde wirklich Verbesserungen mit neuen Sequenzern sehen. Allerdings interessieren sich sehr wenig Menschen für solche Tests in der akademischen Forschung und auch für das Translationslabor. Sie werden wirklich keine Zeit und kein Geld dafür investieren, es sei denn, die Einrichtung verfügt über einige Bioinformatiker, die solche Tests immer durchführen, während sie einen neuen Sequenzer für das Institut kaufen. In Bezug auf die klinische Genomik zum Auffinden von Varianten denke ich, dass die leistungsstärksten und aktuellsten Sequenzer verwendet werden sollten, aber nicht sicher sind, ob sie noch BQSR verwenden und wenn ja, welche Liste sie verwenden, um ein Modell der Kovariation um die Daten herum zu erstellen.

Beachten Sie, dass die Frage durch nicht modellhafte Organismusforschung motiviert ist. Ich kann keine Liste bekannter Varianten verwenden, da eine solche Liste für meine Spezies nicht existiert. Daher wollte ich wissen, wie wichtig es ist, QS neu zu kalibrieren, da dies technisch möglich ist, aber nicht nur durch Ausführen eines weiteren Schritts in der GATK-Pipeline.
Ich bin damit einverstanden, dass es sich um einen Nichtmodellorganismus handelt, und deshalb werden Sie keine solche Liste von Varianten haben. Aber da die Motivation des Ansatzes auch darin bestand, nach dem BQSR zu fragen, sagte ich. Unter https://media.readthedocs.org/pdf/lts-workflows-sm-non-model-toolkit/latest/lts-workflows-sm-non-model-toolkit.pdf finden Sie Informationen zur Verwendung Ihre HC-Varianten Ihrer Probe neu zu kalibrieren. Auch dieser Gatlk-Link könnte ebenfalls helfen. http://gatkforums.broadinstitute.org/gatk/discussion/3286/quality-score-recalibration-for-non-model-organisms. Jetzt liegt die Entscheidung, ob Sie sie verwenden oder vergleichen möchten.
@KamilSJaron für Nichtmodelle ist dies eine Möglichkeit, aber wenn Ihre Sequenziermaschine ziemlich neu und mit verbesserter Genauigkeit ist, können Sie auch den Schritt abschaffen. Ich würde Veröffentlichungen lesen, um zu sehen, was sie tun, aber um meinetwillen Anrufe ohne BQSR und mit BQSR mit HC-Varianten tätigen und sie als Datenbank verwenden und vergleichen, um selbst zu dem Schluss zu kommen. Das ist meine Meinung. Dies hängt auch von der Tugend des Projekts ab.
Der erste Link ist sehr relevant für meine ursprüngliche Frage: "Während GATK UnifiedGenotyper während eines Indel-Anrufs ohne Neukalibrierung und Neuausrichtung leidet, sind sowohl HaplotypeCaller als auch FreeBayes ohne diese Schritte mindestens so gut oder besser." Vielen Dank. Der zweite Link ist ebenfalls relevant, aber ich habe nicht genügend Personen sequenziert, um ihren Ansatz für die Neukalibrierung zu wählen.
@KamilSJaron Ich bin froh, dass es relevant ist, aber andererseits würde ich sagen, dass Sie sowohl mit als auch ohne laufen und eine Schätzung vornehmen können. Da Sie nicht viele Beispiele zum Erstellen Ihrer eigenen HC-SNP-Datenbank haben, können Sie dies auch mit streng strengen SNPs Ihrer Einzelpersonen tun. Oder da Sie nicht viele Proben haben, vermeiden Sie einfach den BQSR-Schritt und ziehen Sie Top-Varianten und nicht einen großen Teil der Varianten heraus. Die Top-Varianten sind zwar nicht sehr genau, aber die Anrufe sind immer noch sehr sicher und vorzugsweise echt positiv. Ich denke, hängt von der Anzahl der Varianten ab, auf die Sie streamen.
BQSR ist immer noch relevant. Einer der Gründe dafür ist, dass einige neue Illumina-Hardware wie NextSeq nur gruppierte Q-Scores ausgeben kann. http://gatkforums.broadinstitute.org/gatk/discussion/4594/beware-of-using-binned-quality-scores-with-some-gatk-procedures. Darüber hinaus leidet der NextSeq unter einem Poly-G-Problem mit hohem Vertrauen. BQSR wird auch hier von Vorteil sein. Https://sequencing.qcfail.com/articles/illumina-2-colour-chemistry-can-overcall-high-confidence-g-bases/
Ah, das war mir nicht bewusst, da ich NextSeq noch nicht kennenlernen musste. Das ist ein guter Punkt. Dann sollte das OP auch darüber nachdenken und ja, ich habe nur darüber nachgedacht, wie der BQSR zum ersten Mal ins Bild kam. Dies ist jedoch ein guter Fang für Q-Scores und für das Poly-G-Problem.
#4
  0
Bekir Ergüner
2020-01-22 16:32:17 UTC
view on stackexchange narkive permalink

Falls BQSR keine Option ist (d. h. Nichtmodellorganismen), ist es am besten, eine interne Kontrollsequenz wie PhiX für die Illumina-Plattform zu verwenden. Obwohl dies gängige Praxis sein soll, ignorieren einige Einrichtungen dies. Grundsätzlich sollten die Maschinen diese Sequenzen als Referenz verwenden, damit die Bewertung genauer ist. Nach meiner Erfahrung hatten die ersten 10-15 Basen der Illumina-Reads immer eine geringere Qualität. Dies ist leicht an den Nukleotidverteilungen zu erkennen. Ich würde empfehlen, die ersten 10-15 Basen zu trimmen und das qualitätsbasierte End-Trimmen durchzuführen, wenn die Qualität der einzelnen Lesevorgänge wichtig ist, z



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...