Frage:
Erwartete Allelhäufigkeitsverteilung von SNVs in realen NGS-Daten
German Demidov
2017-05-22 15:47:44 UTC
view on stackexchange narkive permalink

Ich habe eine große Menge von ~ 20x menschlichen WGS-Proben, ausgerichtet und alle SNVs, die mit GATK unter festgelegten Standard-Keimbahnparametern aufgerufen wurden.

Ich muss nur die SNV-Allelfrequenz modellieren ( AF) für verschiedene zugrunde liegende Kopienummern. Ich würde besser ein Spielzeugbeispiel liefern. Für eine bestimmte Genomregion X:

Wenn X durch 2 Kopien für die bestimmten Proben dargestellt wird, erwarten wir, dass AF sehr nahe bei 1 oder 0,5 liegt.

Wenn X durch 4 Kopien dargestellt wird, erwarte ich, dass ein bestimmter AF nahe bei 0,25, 0,5, 0,75 oder 1 liegt.

Natürlich kann ich für diese Zwecke Binomial Distribution verwenden. Wie wir jedoch wissen, ist die Verteilung aufgrund von Alignment- / Sequenzierungsverzerrungen nicht genau binomial, und der mittlere AF für alle heterozygoten SNVs liegt näher bei 0,48, aber nicht bei 0,5, wie wir es erwarten würden. Eine andere Sache: Für hohe Kopienzahlen erwarten wir höhere Deckungen. Und GATK verwendet mehrere Filter, so dass wir wahrscheinlich keine SNVs mit AF wie 0,125 sehen werden (falls das Segment Ploidie 8 hat) - trotz der super hohen Abdeckung dort kann GATK diesen "seltsamen" AF ablehnen.

Ich habe mehrere Artikel gelesen, in denen SNVs AFs modelliert werden (und ich stimme zu, dass die Beta-Binomialverteilung möglicherweise recht genau ist), war jedoch nicht überzeugt genug, dass ich die jeweilige Modellierung verwenden sollte. Welche probabilistische Verteilung sollte ich aus Ihrer Erfahrung (falls Sie SNVs anrufen) verwenden? Wie sollte ich Parameter für jeden von ihnen schätzen (sollte ich erwarten, dass CN4 AF = 0,5 häufiger als AF = 0,75 ist oder umgekehrt, wie kann ich dies anhand von Daten schätzen)?

UPD: stark> Der Einfachheit halber können wir sagen, dass wir viele zuvor identifizierte Regionen mit einer Ploidie haben, die sich von CN2 unterscheidet, und ich kann diese Koordinaten von hier übernehmen. So kann ich mehr oder weniger "überwachtes" Lernen für die Parameterschätzung verwenden.

Einer antworten:
#1
+4
winni2k
2017-06-04 06:17:18 UTC
view on stackexchange narkive permalink

Ich habe nicht genügend Erfahrung, um zu beantworten, welche Wahrscheinlichkeitsverteilung verwendet werden soll.

In dieser Frage wird jedoch auch gefragt, wie die Parameter der Verteilungen geschätzt werden sollen. Wenn eine Binomialverteilung gewählt wird, ist Heng Lis Artikel mit dem Titel "Ein statistischer Rahmen für SNP-Aufruf, Mutationsentdeckung, Assoziationskartierung und populationsgenetische Parameterschätzung aus Sequenzierungsdaten" 1 wahrscheinlich der endgültige. Abschnitt 2.3.1 dieses Papiers beschreibt einen EM-Algorithmus zum Schätzen von Allelfrequenzen aus mehreren Proben unter der Annahme eines Hardy-Weinberg-Gleichgewichts für eine willkürliche, aber konstante Ploidie.

Im Idealfall verwenden sogar die meisten gängigen Tools wie GATK einen EM-Algorithmus für die Aufzeichnung, um die Wahrscheinlichkeit abzuschätzen, während samtools sowohl die EM- als auch die Brent-Methode verwendet. Die wirklichen Probleme bei der Einrichtung von Ploidy Apriori sind mir jedoch derzeit nicht bekannt, welche Tools die Ploidie schätzen und diese Informationen dann für SNV-Anrufe verwenden und den AF ermitteln. Ich weiß, dass Tools wie ABSOLUTE die Fähigkeit haben, die Ploidie abzuschätzen, aber dann müssen Sie sie als Eingabe für Ihre späteren SNP-Aufrufe verwenden. Aber ich denke, die meisten Werkzeuge funktionieren normalerweise mit der Annahme, dass die Ploidie a priori eingestellt ist. Das fällt mir ab sofort ein.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...