Ich denke, die Frage ist etwas mehrdeutig. Bitte entschuldigen Sie diese Antwort, die von den übrigen Antworten etwas überflüssig ist.
Wie andere bereits erwähnt haben, wenn Sie ein vollständiges Genom speichern möchten, FASTA
und 2bit
sind geeignet. In einigen Fällen ist hg19
für die FASTA
-Datei etwa 900 MB und für die 2bit
-Datei etwa 780 MB komprimiert. hg19
ist eine Referenz und haploide, stellt also kein "vollständiges" menschliches Genom dar, das normalerweise zwei Allele für das Autosom (nicht geschlechtsspezifische Chromosomen) aufweist.
Eine häufige Das Format zur Darstellung von Varianteninformationen ist das Variantenaufrufformat ( VCF
). Das VCF
-Format stellt Unterschiede zu einer Referenz dar (z. B. hg19
), mit der die ursprüngliche vollständige Sequenz unter Verwendung der Referenz und der im codierten Unterschiede wiederhergestellt werden kann VCF
-Datei. Ich habe VCF
-Dateien im Bereich von 100 MB gesehen, aber es wird noch eine Referenzdatei benötigt, um die vollständige Genomsequenz wiederherzustellen, die im Bereich von 800 MB + liegt, wie oben erwähnt.
Wenn Sie nur ein "ganzes Genom" isoliert betrachten, ist die Antwort ziemlich klar: Das 2bit
-Format nähert sich wahrscheinlich der Entropie-Grenze des menschlichen Genoms und Sie werden es wahrscheinlich nicht können Der Grund, warum Ihre Frage etwas mehrdeutig ist, ist, dass Sie, sobald Sie mehr als ein Genom, beispielsweise eine Population von Genomen, codieren, die Redundanz des Genoms ausnutzen können, die von der Population geteilt wird.
Angenommen, Sie möchten zwei "ganze Genome" speichern. Sie können die Referenz hg19
herunterladen und zwei VCF
-Dateien herunterladen, die Daten im Wert von ca. 1 GB liefern (ca. 800 MB für die Datei 2bit
und ca. 200 MB) für beide VCF
-Dateien). Jetzt konnten Sie ein "ganzes Genom" in 500 MB anstelle von 800 MB darstellen. Sie können ein ähnliches Argument für das Herunterladen von 3 VCF
-Dateien und mehr sehen.
Die Mindestmenge an Informationen, die zur Darstellung einer Population von Genomen benötigt wird, ist meines Wissens unbekannt. aber ich würde im Bereich von 2,5 MB bis 5 MB raten. Siehe beispielsweise "Menschliche Genome als E-Mail-Anhänge" von Christley, Lu, Li und Xie, in dem eine 4-MB-Codierung eines Genoms behauptet wird.
Die Dinge werden schwierig, weil Sie fragen müssen, was Sie als "ganzes Genom" behaupten. VCF
-Dateien sind notorisch schlecht, da ältere Versionen der Spezifikation nur Qualitätsunterschiede von der Referenz speichern und so genannte Abschnitte von hoher Qualität wegwerfen. Wenn Sie Informationen von geringer Qualität speichern möchten, hängt die Codierung jetzt auf seltsame Weise von der Sequenzierungstechnologie ab.
Einfügungen, Löschungen, mobile Einfügungselemente, Kopienzahlvarianten, andere Strukturvarianten usw. erschweren diese Angelegenheit weiter. Genomgraphen versuchen, zumindest einige dieser Probleme anzugehen, aber der Schwerpunkt liegt eher auf Variantenaufrufen als auf einer effizienten individuellen Darstellung des gesamten Genoms, kann aber möglicherweise in Zukunft angepasst werden.