Frage:
Was ist die Standardmethode für die Arbeit mit einem diploiden Referenzgenom? Komplementäre Stränge?
ShanZhengYang
2017-06-25 04:33:04 UTC
view on stackexchange narkive permalink
Im Moment sind die Standardreferenzgenome (z. B. hg19, hg38) haploide Genome. Wir wissen, dass das menschliche Genom diploid ist. Letzteres wäre natürlich die jeweils korrekte Darstellung des menschlichen Genoms.

Immer mehr Biologen verwenden neue Technologien, um die diploide Natur genetischer Informationen zu erfassen, z. Phasen-SNPs zwischen Mutter- und Vaterchromosomen.

Wie haben Bioinformatiker standardmäßig ein diploides Standardreferenzgenom generiert?

Tatsächlich sind Referenzgenome (nach meinem Verständnis) nicht wirklich haploide. Da Referenzgenome 5'-3'-koordiniert sind, müsste man das 3'-5'-Komplement nehmen, um einen komplementären Strang zu erzeugen. Um ein diploides Genom zu haben, benötigen Sie zwei Referenzgenome und zwei 3'-5'-Komplemente.

Noch wichtiger ist, wie haben groß angelegte Genomstudien mit der Tatsache umgegangen, dass das haploide Referenzgenom a ist konsensbasierte "Hälfte" eines menschlichen Genoms?

Der Beitrag von [Dieser BioStar] (https://www.biostars.org/p/3423/) könnte die Verwirrung über die Orientierung etwas verdeutlichen.
Wenn Sie "arbeiten mit" sagen, denken Sie nur an Variantenaufrufe?
Dieser Beitrag stellt zwei Fragen. Vielleicht lohnt es sich, den Beitrag in zwei Teile zu teilen?
Fünf antworten:
winni2k
2017-06-26 12:23:26 UTC
view on stackexchange narkive permalink

Im Moment sind die Standardreferenzgenome (z. B. hg19, hg38) haploide Genome. Wir wissen, dass das menschliche Genom diploid ist. Letzteres wäre natürlich die jeweils korrekte Darstellung des menschlichen Genoms.

Die Prämisse der OP-Frage ist falsch. Die natürliche Referenzdarstellung des menschlichen Genoms ist nicht diploid.

Stellen Sie sich ein Referenzgenom als Karte vor und nicht als spezifisches Beispiel für die DNA eines Menschen.

Nicht nur die haploide Referenz des menschlichen Genoms, aber es ist auch ein zusammengesetztes Genom. Dies bedeutet, dass die Referenzsequenz des menschlichen Genoms aus Sequenzen mehrerer Individuen besteht. Mit anderen Worten entspricht die menschliche Referenz keiner menschlichen Sequenz.

Jeder bestimmte Lesevorgang von einem DNA-Sequenzer ist ein Lesevorgang von einem menschlichen Genom, der vom Referenzgenom abweicht. Ein Algorithmus, der versucht, den Lesevorgang mit dem Referenzgenom abzugleichen, muss daher immer mit potenziellen Diskrepanzen umgehen. Das Hinzufügen einer zweiten Karte, mit der ein Lesevorgang abgeglichen werden soll, würde diese Tatsache nicht ändern. Daher ist die Bereitstellung eines zweiten haploiden Referenzgenoms wenig sinnvoll.

Randnotiz : Es gibt Teile des menschlichen Genoms, die "zu komplex sind, um durch einen einzelnen Pfad dargestellt zu werden "und das Genome Reference Consortium bietet" alternative Loci "für solche Regionen des Genoms.

Antwort auf die zweite Frage des OP

Mehr Wie haben groß angelegte Genomstudien mit der Tatsache umgegangen, dass das haploide Referenzgenom eine konsensbasierte "Hälfte" eines menschlichen Genoms ist?

Ich interpretiere diese Frage als "Wie geht das?" große genomische Studien stellen eine Genomdiversität dar, die nicht durch ein haploides Referenzgenom dargestellt werden kann? "

Ein Standardansatz, der in genomweiten Assoziationsstudien sehr beliebt war, ist die Verwendung eines Haplotyp-Referenzpanels, wie beispielsweise aus dem 1000 Genomes Project. Moderne Phasenprogramme nutzen die gemeinsame Abstammung der Proben in einer Studie und referenzieren Haplotypen, um die Proben einer Studie zu phasen. Ein beliebtes Phasenprogramm ist Impute2

Obwohl technisch zusammengesetzt, stammen 70% von GRCh38 aus RP11, einem einzelnen männlichen Spender (siehe: http://genome.cshlp.org/content/27/5/849.full).
user172818
2017-06-25 07:00:17 UTC
view on stackexchange narkive permalink

Zum Aufrufen kleiner Varianten besteht der Standardweg darin, einfach diploide Genotypen aufzurufen. Sie können bereits eine Vielzahl von Forschungen mit nicht phasengesteuerten Genotypen durchführen. Sie können Genotypen mit Imputation, Stammbaum oder langen Lesevorgängen / verknüpften Lesevorgängen weiter phasen, aber nicht viele tun dies, weil die Phaseneinstellung schwieriger ist, Kosten verursachen kann und Ihnen möglicherweise nicht immer neue Einblicke in Ihre Daten gibt. Für diese Analysen verwenden wir ein haploides Genom. Bei menschlichen Proben wird die überwiegende Mehrheit der "groß angelegten Genomstudien" auf diese Weise durchgeführt.

Eine diploide Referenz hilft bei der referenzbasierten Analyse eigentlich nicht viel. es kompliziert nur Algorithmen. Was viel helfen könnte, ist eine Bevölkerungsreferenz, die durch ein Diagramm oder einen komprimierten Volltextindex oder beides dargestellt werden kann. Wenn Sie über eine umfassende Populationsreferenz und einen leistungsfähigen Zuordnungsalgorithmus verfügen, können Sie theoretisch zusätzliche Varianten aufrufen, die mit kurzen Lesevorgängen nicht aufgerufen werden können. In der Praxis gibt es jedoch einige technische Herausforderungen. Der Umgang mit Bevölkerungsreferenzen ist ein Forschungsthema. Es gibt noch keine "Standards".

Wenn das Ziel darin besteht, ein neues Referenzgenom aus einer diploiden Probe zusammenzusetzen, ziehen wir es fast immer vor, eine diploide Anordnung zu erstellen. Leider glaube ich, dass es auch keine "Standard" -Verfahren gibt. SuperNova von 10x Genomics baut die diploiden Informationen in einem Diagramm auf. Falcon von PacBio verwendet "entpacken". Ich glaube nicht, dass sie bisher weit verbreitet und evaluiert wurden.

PS: Sie haben Ihre Bearbeitung beim Schreiben der obigen Informationen gesehen. Die Tatsache, dass das Genom nur einen Strang darstellt, bedeutet nicht, dass wir den Komplementstrang explizit in Analysen erstellen müssen. Wir führen die meisten umgekehrten Komplemente im laufenden Betrieb sowohl in Algorithmen als auch im Auge durch.

Referenzgenome sind nicht wirklich haploide

Das hängt davon ab, wie die Referenz zusammengesetzt wird. Wenn Sie eine haploide Probe (z. B. Bakterien) sequenzieren, ist Ihre Anordnung haploide. Wenn Sie einen Inzuchtlaborstamm sequenzieren, der fast homozygot ist (z. B. Maus- und Fruchtfliege), ist Ihre Anordnung nahezu haploide. Wenn Sie eine diploide Probe sequenzieren, ist Ihre Anordnung sehr wahrscheinlich ein Mosaik der beiden Haplotypen. Im Fall des menschlichen Referenzgenoms ist es komplizierter. Es ist größtenteils ein Mosaik mehrerer Menschen, indem ~ 150 kb Haplotypen aus diesen Proben genäht werden.

Entschuldigung, aber viele Gruppen stellen ihre Proben in Phase. Dies liegt daran, dass die Phaseneinteilung von Genotypen eine Voraussetzung für die Imputation von Genotypen nach dem Stand der Technik aus einem Haplotyp-Referenzpanel ist. Das Papier eines solchen Panels enthält laut der Website des Herausgebers 3437 Zitate (https://www.nature.com/articles/nature11632).
1000g mussten nur phasenweise durchgeführt werden. Es hatte nicht wirklich eine Wahl. Heutzutage folgen jedoch nicht viele Projekte dem 1000g-Design. Ich bezog mich auf die neuen Genomsequenzierungsprojekte.
Ich spreche nicht von 1000g. Ich spreche von der großen Teilmenge der 3437 Studien, in denen das 1000g-Referenzpanel (Phase 1) verwendet wurde. Und dann gibt es die 224 Zitate des Papiers von 2015 zu 1000 g Phase3 https://www.nature.com/articles/nature15394 und die 63 Zitate des Haplotype Rereferenc Consortium-Papiers von 2016 https://www.nature.com/articles /ng.3643. Ich denke, es hängt wirklich davon ab, was Sie erreichen wollen. Für große GWAS sind SNP-Chips + Phasing + Imputation immer noch der richtige Weg. Das kann in Ihrem Bereich natürlich anders sein. Vollständige Offenlegung: Ich bin Autor der beiden letztgenannten Artikel.
Beachten Sie den Kontext meines Satzes: "zum Aufrufen kleiner Varianten". Es ist nur ein Beispiel, dass Sie direkt mit Genotypen arbeiten können. Ich weiß natürlich, dass GWAS ständig Imputationen verwendet.
gringer
2017-06-25 08:48:53 UTC
view on stackexchange narkive permalink

Es gibt einige Assembler, die Assembly-Diagramme erstellen, die versuchen, alle möglichen haploiden Pfade innerhalb einer Reihe von Lesevorgängen zu beschreiben. Eine solche Anordnung versucht, alle diploiden Variationen (und / oder Populationsvariationen) in einer Probe auf Kosten der fehlenden Chromosomen voller Länge zu erfassen.

Canu (zum Beispiel) erzeugt Contigs, die als erweitert werden Solange der Konsens über verschiedene Lesevorgänge hinweg erhalten bleibt, aber wenn es eine zuverlässige Unterbrechung der Abdeckung gibt (dh einen Bereich, in dem Chromosomen heterozygot sind), werden die Contigs aufgelöst. Canu stellt als Ausgabe eine GFA-Datei (Baugruppendiagramm) zur Verfügung, mit der bestimmt werden kann, welche Pfade zu einem einzigen Chromosom kombiniert werden können.

burger
2017-06-27 01:07:17 UTC
view on stackexchange narkive permalink

Um all die anderen guten Antworten zu ergänzen, möchte ich erwähnen, dass die Frage etwas irreführend ist. Wenn das Referenzgenom für ein einzelnes Individuum bestimmt ist, sollte es diploid sein. Es ist jedoch eine Referenz für alle Menschen. Es sollte wirklich Milliarden von Kopien enthalten, um die Vielfalt vollständig zu berücksichtigen. Da dies nicht realistisch ist, dient die Referenz als einfache Annäherung.

Dieser Punkt wurde in dem kürzlich erschienenen koreanischen Genompapier angesprochen:

Mensch Genome werden routinemäßig mit einer universellen Referenz verglichen. Bei dieser Strategie könnten jedoch populationsspezifische und persönliche genomische Variationen übersehen werden, die mithilfe einer ethnisch relevanten oder persönlichen Referenz effizienter erkannt werden können. ... Der systematische Vergleich menschlicher Baugruppen zeigt die Bedeutung der Baugruppenqualität und legt die Notwendigkeit neuer Technologien nahe, um ethnische und persönliche Variationen der Genomstruktur umfassend abzubilden.

heathobrien
2018-01-25 18:41:34 UTC
view on stackexchange narkive permalink

Da niemand Ihre zweite Frage beantwortet hat, werde ich es versuchen:

Der komplementäre Strang zu einer Genomsequenz ist das 5'-3 ' reverse Komplement. nicht das 3'-5'-Komplement. Diese Sequenz wird nicht in Standardreferenzgenomen erfasst, aber die Informationen sind. Bei einer bestimmten Sequenz ist es trivial, das umgekehrte Komplement zu berechnen, und jedes Tool, das für die Arbeit mit Sequenzdaten entwickelt wurde, berücksichtigt diese Funktion.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...