Zum Aufrufen kleiner Varianten besteht der Standardweg darin, einfach diploide Genotypen aufzurufen. Sie können bereits eine Vielzahl von Forschungen mit nicht phasengesteuerten Genotypen durchführen. Sie können Genotypen mit Imputation, Stammbaum oder langen Lesevorgängen / verknüpften Lesevorgängen weiter phasen, aber nicht viele tun dies, weil die Phaseneinstellung schwieriger ist, Kosten verursachen kann und Ihnen möglicherweise nicht immer neue Einblicke in Ihre Daten gibt. Für diese Analysen verwenden wir ein haploides Genom. Bei menschlichen Proben wird die überwiegende Mehrheit der "groß angelegten Genomstudien" auf diese Weise durchgeführt.
Eine diploide Referenz hilft bei der referenzbasierten Analyse eigentlich nicht viel. es kompliziert nur Algorithmen. Was viel helfen könnte, ist eine Bevölkerungsreferenz, die durch ein Diagramm oder einen komprimierten Volltextindex oder beides dargestellt werden kann. Wenn Sie über eine umfassende Populationsreferenz und einen leistungsfähigen Zuordnungsalgorithmus verfügen, können Sie theoretisch zusätzliche Varianten aufrufen, die mit kurzen Lesevorgängen nicht aufgerufen werden können. In der Praxis gibt es jedoch einige technische Herausforderungen. Der Umgang mit Bevölkerungsreferenzen ist ein Forschungsthema. Es gibt noch keine "Standards".
Wenn das Ziel darin besteht, ein neues Referenzgenom aus einer diploiden Probe zusammenzusetzen, ziehen wir es fast immer vor, eine diploide Anordnung zu erstellen. Leider glaube ich, dass es auch keine "Standard" -Verfahren gibt. SuperNova von 10x Genomics baut die diploiden Informationen in einem Diagramm auf. Falcon von PacBio verwendet "entpacken". Ich glaube nicht, dass sie bisher weit verbreitet und evaluiert wurden.
PS: Sie haben Ihre Bearbeitung beim Schreiben der obigen Informationen gesehen. Die Tatsache, dass das Genom nur einen Strang darstellt, bedeutet nicht, dass wir den Komplementstrang explizit in Analysen erstellen müssen. Wir führen die meisten umgekehrten Komplemente im laufenden Betrieb sowohl in Algorithmen als auch im Auge durch.
Referenzgenome sind nicht wirklich haploide
Das hängt davon ab, wie die Referenz zusammengesetzt wird. Wenn Sie eine haploide Probe (z. B. Bakterien) sequenzieren, ist Ihre Anordnung haploide. Wenn Sie einen Inzuchtlaborstamm sequenzieren, der fast homozygot ist (z. B. Maus- und Fruchtfliege), ist Ihre Anordnung nahezu haploide. Wenn Sie eine diploide Probe sequenzieren, ist Ihre Anordnung sehr wahrscheinlich ein Mosaik der beiden Haplotypen. Im Fall des menschlichen Referenzgenoms ist es komplizierter. Es ist größtenteils ein Mosaik mehrerer Menschen, indem ~ 150 kb Haplotypen aus diesen Proben genäht werden.