Warum das menschliche Genom bei 30-facher Abdeckung sequenzieren?

Frage:

719016

2017-08-04 20:10:40 UTC

view on stackexchange narkive permalink

Eine historische Frage zu einer Zahl mit 30-facher Abdeckung, die auf diesem Gebiet so bekannt geworden ist: Warum sequenzieren wir das menschliche Genom mit 30-facher Abdeckung?

Meine Frage besteht aus zwei Teilen:

Wer hat den 30-fachen Wert erfunden und warum?
Muss der Wert aktualisiert werden, um den heutigen Stand der Technik widerzuspiegeln?

Wenn der 30x-Wert eine Zahl ist, die auf den alten Solexa GAIIx 2x35bp-Lese- und Fehlerraten basiert und die aktuelle Standard-Illumina-Sequenzierung 2x150bp beträgt, muss der 30x-Wert aktualisiert werden?

Vier antworten:

chrisamiller

2017-08-04 20:46:52 UTC

view on stackexchange narkive permalink

Die früheste Erwähnung des 30x-Paradigmas, das ich finden konnte, ist im Original-Sequenzierungspapier für das gesamte Genom von Illumina: Bentley, 2008. In Abbildung 5 zeigen sie insbesondere, dass die meisten SNPs gefunden wurden und dass es bis zum Erreichen des 30-fachen nur wenige nicht abgedeckte / nicht aufgerufene Basen gibt:

Heutzutage 30x ist immer noch ein gängiger Standard, aber große Keimbahn-Sequenzierungsprojekte drängen oft näher an 25x heran und finden ihn angemessen. Jede Gruppe, die dies ernsthaft tut, hat Leistungsberechnungen basierend auf den Besonderheiten ihrer Maschinen und Vorbereitungen durchgeführt (Dinge wie Fehlerraten und Leselängen sind wichtig!).

Die Krebsgenomik geht in die andere Richtung. Wenn Sie mit Reinheit, Ploidie und subklonalen Populationen zu kämpfen haben, ist viel mehr Abdeckung als 30x erforderlich. Unsere Gruppe hat in dieser Veröffentlichung von 2015 gezeigt, dass selbst bei einer 300-fachen Gesamtgenomabdeckung eines Tumors wahrscheinlich echte seltene Varianten eines Tumors fehlten.

Insgesamt hängt die Sequenzabdeckung, die Sie benötigen, wirklich davon ab, welche Fragen Sie stellen, und ich würde jedem empfehlen, der ein Sequenzierungsexperiment entwirft, sich vorher mit einem Sequenzierungsexperten und einem Statistiker zu beraten (und das ist es auch) noch besser, wenn das die gleiche Person ist!)

Dies ist so weit ich zurückverfolgen könnte, würde aber gerne wissen, ob jemand eine frühere Erwähnung von 30x als Standardtiefe finden kann!

Das ist wahrscheinlich das früheste. Frühere Technologien konnten diese Tiefe nicht zu angemessenen Kosten erreichen.

user172818

2017-08-06 08:27:18 UTC

view on stackexchange narkive permalink

Solexa Inc. sequenzierte NA12878 chrX Anfang 2007 auf ~ 30x, was später Teil von Bentley (2008) wurde. Ich glaube, dies war das erste Mal, dass 30x auftauchte. Ich erinnere mich nicht, dass sie einen bestimmten Grund dafür hatten. Abbildung 5 in der veröffentlichten Veröffentlichung war kurz danach. Es erklärt nicht wirklich, warum nicht 25x oder 35x, da die Kurven zwischen 25x und 35x in dieser Figur ungefähr linear sind.

In der Zusammenfassung von Ajay et al. (2011) Die Autoren argumentierten, "die derzeitige Empfehlung einer ~ 30-fachen Abdeckung ist nicht ausreichend". Trotzdem scheint der Diskussionsteil darauf hinzudeuten, dass mit GAIIx 50- bis 60-fach erforderlich wäre, mit HiSeq2000 plus besserer neuerer Chemie jedoch 35-fach. Insgesamt bietet dieses Papier eine gründlichere Analyse. Die Datenqualität zu diesem Zeitpunkt ist auch näher an den Daten, die wir heute produzieren.

Die erforderliche Abdeckung wird weitgehend durch zwei Faktoren bestimmt: Leseplatzierungsverzerrung (z. B. GC-Verzerrung) und Basis- / Abbildungsfehlerrate. Während die GC-Verzerrung mit dem PCR-freien Protokoll reduziert wurde, ist die Basisfehlerrate seit HiSeq2500 rückläufig. Ich denke, eine 30-fache Abdeckung wäre erforderlich, wenn Sie die Empfindlichkeit mit den älteren 30-fachen Daten erreichen möchten. Illumina als Sequenzierungsdienstleister und unsere Sequenzierungsanlage bestehen weiterhin auf dem 30-fachen Schwellenwert.

Interessanterweise fanden wir auch in Sudbery et al., 2009 (https://genomebiology.biomedcentral.com/articles/10.1186/gb-2009-10-10-r112), dass die Anzahl der kontinuierlichen Regionen ohne Unterbrechung der Abdeckung größer war oder weniger linear in der Anzahl der sequenzierten Lesevorgänge zwischen 25x und 60x bei der Sequenzierung des Mausgenoms.

miroxlav

2017-08-05 01:51:38 UTC

view on stackexchange narkive permalink

Die

30-fache Abdeckung ist nicht auf dieses Problem beschränkt, aber die Zahl 30 spielt eine empirische Rolle in der Statistik:

In der statistischen Analyse lautet die Regel von drei Wenn ein bestimmtes Ereignis in einer Stichprobe mit n Probanden nicht aufgetreten ist, ist das Intervall von 0 bis 3 / n ein 95% -Konfidenzintervall für die Häufigkeit des Auftretens in der Bevölkerung. Wenn n größer als 30 ist, ist dies eine gute Annäherung an die Ergebnisse empfindlicherer Tests.

Quelle: Wikipedia: Dreierregel (Statistik)

Ebenso können Sie nach verwandten Fragen wie dieser suchen:

Was ist der Grund für die magische Zahl 30 in der Statistik?

Dementsprechend habe ich Datenverarbeitung in anderen Disziplinen gesehen, die n ≥ 30 für eine ausreichende Zuverlässigkeit der Ergebnisse erforderten.

In dieser Art von Community würde ich unter der Antwort einen gewissen Gegner erwarten, aber ich bekomme bisher nur Downvotes (aktuelle Punktzahl: + 6 / -3).

finswimmer

2017-08-10 21:58:43 UTC

view on stackexchange narkive permalink

Der Punkt, den ich in der Diskussion über die Berichterstattung immer vermisse, ist, dass niemand sagt, wie sie berechnet wurde. Wurden Duplikate entfernt? Wie zählen Sie überlappende Paired-End-Lesevorgänge? Als 2 oder 1? Nur um auf zwei Dinge hinzuweisen, die Einfluss auf die Berichterstattung haben.

Jeder, der überlappende Paired-End-Lesevorgänge als 2 zählt, macht es falsch. Dafür gibt es nie eine Entschuldigung.

@DevonRyan warum? Überlappende Teile von Pair-End-Lesevorgängen sind zwei unabhängige technische Replikate derselben Region. Was ist der Unterschied zur Überlappung von zwei Lesevorgängen, die nicht gepaart sind? Sollten sie auch als einer gezählt werden? Wenn Sie überlappende Lesevorgänge vor einer Assembly zu längeren Sequenzen zusammenführen, müssen Sie sie natürlich einmal zählen, aber sonst sehe ich nicht ein Grund, warum sie als eins gezählt werden sollten ...

@KamilSJaron Sie stellen ein sequenziertes Fragment dar, andernfalls lügen sie.

@DevonRyan Gleiches Fragment, aber unterschiedliche Sequenzierung und Sequenzierungsabdeckung, keine Fragmentabdeckung. Ich verstehe nicht was Sie meinen.

@KamilSJaron Sie sind zu wörtlich. Der Punkt der Metrik besteht darin, zu bewerten, wie viele Daten Sie pro Position haben. Überlappende PE-Lesevorgänge stellen keine unterschiedlichen Datenpunkte dar. Deshalb werden sie bei Varianten- und Spitzenaufrufen als eine Einheit behandelt.

Meiner Meinung nach sollte die Abdeckung die Anzahl der verschiedenen Moleküle darstellen. Das Zählen überlappender gepaarter Lesevorgänge und das Entfernen von Duplikaten ist daher obligatorisch. Ansonsten ist die Anzahl der Lesevorgänge nur eine mehr oder weniger nutzlose Zahl.

@KamilSJaron, Wenn Sie diese Informationen verwenden möchten, gibt es Algorithmen, die die überlappenden Segmente solcher Lesevorgänge auf intelligente Weise reduzieren (z. B. für jede überlappende Basis die mit der höchsten Qualität verwenden und die andere verwerfen). Devon hat Recht, dass sie absolut nicht als unabhängige Ereignisse für die Entdeckung von Varianten, die Tiefenberechnung usw. behandelt werden sollten.

ⓘ

Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.

über - juristisches