Frage:
Einzelprobe vs. gemeinsame Genotypisierung
llevar
2017-05-17 18:02:17 UTC
view on stackexchange narkive permalink

Ich versuche, die Vorteile der gemeinsamen Genotypisierung zu verstehen, und wäre dankbar, wenn jemand ein Argument (idealerweise mathematisch) liefern könnte, das den Nutzen der gemeinsamen Genotypisierung im Vergleich zur Genotypisierung mit einer Stichprobe deutlich macht.

Dies ist das, was ich aus anderen Ressourcen (Biostars, GATK-Foren usw.) zusammengetragen habe.

  • Die gemeinsame Genotypisierung hilft bei der Kontrolle des FDR, da Fehler aus einzeln genotypisierten Proben addiert und beim Zusammenführen von Anrufen verstärkt werden. Sets (von Heng Li auf https://www.biostars.org/p/10926/)

Wenn jemand dies versteht, können Sie bitte klären, was ist Der Unterschied in der Gesamt-FDR-Rate zwischen den beiden Szenarien (wiederum idealerweise mit einem Beispiel)

  • Höhere Empfindlichkeit für niederfrequente Varianten - Durch den Austausch von Informationen über alle Stichproben hinweg ermöglicht das gemeinsame Aufrufen dies Genotyp-Anrufe „retten“ an Standorten, an denen ein Netzbetreiber nur eine geringe Abdeckung hat, andere Proben innerhalb des Anrufsatzes jedoch an diesem Standort eine zuverlässige Variante aufweisen. (von https://software.broadinstitute.org/gatk/documentation/article.php?id=4150)

Ich verstehe nicht, wie die Präsenz ist einer sicher genannten Variante am selben Ort bei einem anderen Individuum kann die Genotypisierung eines Individuums mit geringer Abdeckung beeinflussen. Gibt es ein gültiges Argument, das es einem erlaubt, Lesungen von einer anderen Person als Beweis für eine bestimmte Variante bei einer dritten Person zu betrachten? Was sind die Annahmen für ein solches Argument? Was ist, wenn diese Person aus einer anderen Population mit völlig unterschiedlichen Allelfrequenzen für diese Variante stammt?

Nachdem Sie mehrere Artikel (oder Methodenbeschreibungen) gelesen haben, in denen die neuesten haplotypbewussten SNP-Aufrufmethoden (HaplotypeCaller, freebayes) beschrieben sind , Platypus) scheint das allgemeine Framework zu sein:

    1. Erstellen Sie einen Prior für die Allelhäufigkeitsverteilung an einem interessierenden Ort unter Verwendung eines (oder einer Kombination) von: nicht informativen Prioren, die auf einem populationsgenetischen Modell basieren, wie Wright Fisher, Prior basierend auf etablierten Variationsmustern wie dbSNP, ExAC, oder gnomAD.
    2. ol>
    1. Erstellen Sie mithilfe lokaler Assemblierung eine Liste plausibler Haplotypen in einer Region um den interessierenden Ort.
    2. ol>
    1. Wählen Sie den Haplotyp mit der höchsten Wahrscheinlichkeit basierend auf dem vorherigen und lesen Sie die Daten und schließen Sie den Locus-Genotyp entsprechend ab.

An welchen Punkten des obigen Verfahrens können Informationen zwischen Stichproben geteilt oder zusammengefasst werden? Sollte man dem AFS aus einer großen Ressource wie gnomAD nicht viel mehr vertrauen als der Verteilung, die aus anderen Stichproben erhalten wurde, die nominell derselben "Kohorte" angehören, aber möglicherweise aufgrund unterschiedlicher Abstammung wenig miteinander zu tun haben?

Ich möchte die Rechtfertigungen und Vorteile der Genotypisierung mit mehreren Stichproben wirklich verstehen und würde mich über Ihre Erkenntnisse freuen.

Zwei antworten:
#1
+10
user172818
2017-05-17 19:08:22 UTC
view on stackexchange narkive permalink

Angenommen, Sie sequenzieren auf 2X-Abdeckung. Angenommen, an einer Stelle hat Probe S eine Referenzbasis und eine alternative Basis. Es ist schwer zu sagen, ob dies ein Sequenzierungsfehler oder eine Heterozygote ist. Angenommen, Sie haben 1000 andere Samples, alle mit 2X Lesetiefe. Einer von ihnen hat zwei ALT-Basen; 10 von ihnen haben einen REF und einen ALT. Es ist normalerweise unwahrscheinlich, dass alle diese Proben denselben Sequenzierungsfehler aufweisen. Dann können Sie behaupten, dass Probe S einen Het hat. Multi-Sample-Anrufe tragen dazu bei, die Empfindlichkeit nicht so seltener SNPs zu erhöhen. Beachten Sie, dass hier die Annahme der Fehlerunabhängigkeit von Bedeutung ist. Vorfahren haben nur einen winzigen indirekten Effekt.

Das Aufrufen mehrerer Stichproben bestraft sehr seltene SNPs, insbesondere Singletons. Wenn Sie sich nur für Varianten interessieren, ist dies für immer. Das naive Kombinieren von Einzelabtastaufrufen führt zu einer höheren Fehlerrate. Das Aufrufen mehrerer Stichproben hilft auch bei der späteren Filterung von Varianten. Bei einer Probe mit einer 30-fachen Abdeckung wissen Sie beispielsweise nicht, ob eine Stelle in 45-facher Tiefe durch eine mögliche CNV / Fehlpaarung oder durch statistische Schwankungen verursacht wird. Wenn Sie 1000 30X-Proben in 45X-Tiefe sehen, können Sie leicht erkennen, dass es sich um eine CNV / systematische Fehlabbildung handelt. Mehrere Stichproben verbessern die meisten statistischen Signale.

Ältere Methoden bündeln alle BAMs, wenn Varianten aufgerufen werden. Dies ist erforderlich, da eine einzelne Stichprobe mit geringer Abdeckung nicht über genügend Daten verfügt, um versteckte INDELs wiederherzustellen. Diese Strategie ist jedoch nicht so einfach massiv zu parallelisieren. Das Hinzufügen eines neuen Beispiels löst einen erneuten Aufruf aus, was ebenfalls sehr teuer ist. Da wir heutzutage hauptsächlich Sequenzierungen mit hoher Abdeckung durchführen, spielt das alte Problem mit INDEL-Aufrufen jetzt keine Rolle mehr. GATK verfügt über diese neue Single-Sample-Calling-Pipeline, in der Sie gVCFs pro Sample zu einem späteren Zeitpunkt kombinieren. Eine solche Strategie zum Kombinieren von Stichproben ist möglicherweise die einzig sinnvolle Lösung, wenn Sie mit 100.000 Stichproben arbeiten.

Der sogenannte Haplotyp-basierte Variantenaufruf ist eine separate Frage. Diese Art von Ansatz hilft beim Aufrufen von INDELs, ist jedoch für Anrufe mit mehreren Stichproben nicht von großer Relevanz. Außerdem verwenden von den drei Anrufervarianten in Ihrer Frage nur GATK (und Scalpel, die Sie nicht erwähnt haben) die Assembly insgesamt. Freebayes nicht. Platypus funktioniert nur in begrenztem Umfang und funktioniert in der Praxis nicht gut.

Ich denke, Sie möchten wirklich über imputationsbasierte Anrufe sprechen. Dieser Ansatz verbessert die Empfindlichkeit mit LD weiter. Mit genügend Proben können Sie die LD zwischen zwei Positionen messen. Angenommen, an Position 1000 sehen Sie einen REF-Lesevorgang und keinen ALT-Lesevorgang. An Position 1500 sehen Sie einen REF-Lesevorgang und zwei ALT-Lesevorgänge. Sie würden auch bei mehreren Samples keine SNPs an Position 1000 aufrufen. Wenn Sie jedoch wissen, dass die beiden Positionen stark miteinander verbunden sind und die dominanten Haplotypen REF-REF und ALT-ALT sind, wissen Sie, dass die untersuchte Probe wahrscheinlich ein fehlendes ALT-Allel aufweist. LD überträgt Signale über Standorte hinweg und verbessert die Fähigkeit, korrekte Genotypisierungsaufrufe zu tätigen. Da wir heutzutage hauptsächlich Sequenzierungen mit hoher Abdeckung durchführen, haben imputationsbasierte Methoden nur einen geringen Effekt und werden selten angewendet.

Vielen Dank, ein paar Follow-ups (verteilt auf mehrere Kommentare): Der oberste Absatz klingt eher nach Variantenaufrufen als nach Genotypisierung, was im Zusammenhang mit groß angelegten Studien mit hoher Abdeckung oder laufender klinisch fokussierter Sequenzierung nicht möglich ist. Sehen Sie dieselbe Logik für die Genotypisierung, d. H. Vorausgesetzt, dass es am Ort eine Variante gibt? Was ich zu kämpfen habe, ist das Verständnis, abgesehen von der Erkennung von Batch-Effekten, warum wir Informationen über AFS aus einer etwas willkürlichen Sammlung von Proben (genetisch gesehen) mehr vertrauen als einer großen Probenressource wie gnomAD?
Ich verstehe nicht, warum "das naive Kombinieren von Einzelstichprobenaufrufen zu einer höheren Fehlerrate führt". Können Sie im Zusammenhang mit der Genotypisierung ein Beispiel ausarbeiten oder liefern?
wrt. Für Haplotyp- oder Assembly-basierte Aufrufe ist es einfach ein Spiegelbild der Tatsache, dass die besten Methoden über eine Region um einen Ort herum zu argumentieren scheinen, nicht nur über den Ort selbst, und ich versuche herauszufinden, wo in einer solchen Methode Informationen aus mehreren Stichproben verwendet werden können . Insbesondere im Zusammenhang mit einer Sequenzierung des gesamten Genoms mit hoher Abdeckung, bei der regelmäßig mehrere Chargen von Proben zur Analyse eintreffen und es nicht unbedingt eine endgültige Probengröße gibt.
Im oberen Absatz geht es um die Entscheidung über den * Genotyp * von Probe S - die Genotypisierung. Wenn Sie die Häufigkeit von Site-Allelen (AFS ist hier der falsche Wortlaut) in einer größeren Population kennen, haben Sie einen besseren Prior. Dieser Prior ist in allen Populationen weniger genau, aber besser als ein Wright-Fisher-Prior. Alle diese Theorien sind nur für lowCov nützlich. Für highCov hat die Genotypwahrscheinlichkeit einen viel größeren Effekt als frühere und stichprobenübergreifende Informationen.
Im Übrigen sollten Sie separate Fragen stellen. Das Zusammenführen mehrerer Themen unter dieser einen Frage ist für Sie, mich und die Leser schwer zu verstehen.
Wie auch immer ... Beim Assembly-basierten Aufruf habe ich bereits gesagt, dass dies wenig mit dem Aufrufen mehrerer Stichproben zu tun hat. Beim Kombinieren von Einzelstichprobenaufrufen habe ich bereits im oberen Absatz erklärt, dass die gemeinsame Berücksichtigung mehrerer Stichproben die Genotypisierung unterstützt - was bedeutet, dass die Nichtverwendung der Informationen die Genotypisierung beeinträchtigt. Übrigens, der Hauptteil Ihrer Frage ist das Mischen von Variantenaufrufen und Genotypisierung (z. B. FDR handelt von Variantenaufrufen), was mich und Devon unten verwirrt.
#2
+2
Devon Ryan
2017-05-17 18:13:19 UTC
view on stackexchange narkive permalink

Der Vorteil zusätzlicher Stichproben zeigt sich in Punkt 1. Die Wahrscheinlichkeit eines Variantenaufrufs hängt von (1) der Abdeckungstiefe ab, die eine bestimmte Variante unterstützt (ohne Berücksichtigung von Mapping- / Basisqualitätsüberlegungen) und (2) der Wahrscheinlichkeit, dass diese Variante bei gegebenem Hintergrundwissen existiert. Bei geringer Tiefe und ohne Hintergrundwissen wird davon ausgegangen, dass schlecht abgedeckte Varianten Sequenzierungsfehler sind. Das Hinzufügen weiterer Stichproben kann nur dazu dienen, das Hintergrundwissen zu einer Position zu erweitern.

Dank Devon zielt die Frage speziell auf die Genotypisierung ab, d. H. Sie müssen bereits denken, dass es dort eine Variante gibt.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...