Frage:
Funktionsanmerkung: RefSeq vs Ensembl vs Gencode, was ist der Unterschied?
Plasma
2017-05-17 00:24:16 UTC
view on stackexchange narkive permalink

Was sind die tatsächlichen Unterschiede zwischen verschiedenen Anmerkungsdatenbanken?

Mein Labor bevorzugt aus mir noch unbekannten Gründen Ensembl-Annotationen (wir arbeiten mit der Schätzung von Transkript- / Exon-Ausdrücken), während einige Softwareprodukte mit RefSeq-Annotationen geliefert werden. Gibt es heute signifikante Unterschiede zwischen ihnen oder sind sie in jeder Hinsicht austauschbar (z. B. sind Exon-Koordinaten zwischen RefSeq- und Ensembl-Annotationen austauschbar)?

Fünf antworten:
#1
+23
Mitra
2017-05-17 14:34:08 UTC
view on stackexchange narkive permalink

Zur rechtssicheren Antwort hinzufügen: Zwar gilt Folgendes:

Gencode ist ein additiver Satz von Anmerkungen (der manuelle von Havanna und der automatisierte von Ensembl ),

Die Anmerkungsdateien (GTF) sind bis auf wenige Ausnahmen, die das X-Chromosom und Y-Par betreffen, und zusätzliche Anmerkungen in der Gencode-Datei ziemlich ähnlich (siehe mehr unter FAQ - Gencode ).

Was sind die tatsächlichen Unterschiede zwischen verschiedenen Anmerkungsdatenbanken?

Es sind einige Unterschiede, aber der Hauptunterschied für mich (und es könnte dumm sein) ist

, dass Refseq vom amerikanischen NCBI entwickelt wird und

das ENSEMBL hauptsächlich vom Europäisches EMBL-EBI.

Oft verwenden Labors oder Personen nur das, was ihnen am besten bekannt ist (aufgrund eines Kurses oder Workshops) oder weil sie mit einer der Datenbanken arbeiten mit einem bestimmten Tool und behalten Sie es später bei.

Mein Labor, aus Gründen, die noch unbekannt sind Ich bevorzuge Ensembl-Annotationen (wir arbeiten mit der Schätzung von Transkript- / Exon-Ausdrücken), während einige Softwareprodukte mit RefSeq-Annotationen geliefert werden Lesen Sie Artikel wie die von Frankish et al. Vergleich der Annotation von GENCODE- und RefSeq-Genen und des Einflusses des Referenzgen-Sets auf die Vorhersage von Varianteneffekten. BMC Genomics 2015; 16 (Suppl 8): S2 - DOI: 10.1186 / 1471-2164-16-S8-S2

Aus dem Frankish et al. Papier Papier:

Das GENCODE Umfassende Transkripte enthalten mehr Exons, haben eine größere genomische Abdeckung und erfassen viel mehr Varianten als RefSeq in Genom- und Exom-Datensätzen, während das GENCODE Basic-Set a zeigt Höherer Übereinstimmungsgrad mit RefSeq und weniger eindeutige Funktionen.

Wie für:

Gibt es heute signifikante Unterschiede zwischen ihnen oder sind sie in jeder Hinsicht austauschbar (z. B. sind Exon-Koordinaten zwischen RefSeq- und Ensembl-Annotationen austauschbar)?

Nein. Ich denke nicht, dass sie große Unterschiede zwischen ihnen sind, da das globale Bild gleich bleiben sollte (obwohl Sie unterschiedliche Ergebnisse sehen werden, wenn Sie an einem kleinen Satz von Genen interessiert sind). Sie sind jedoch nicht direkt austauschbar . Zumal es viele Versionen von Ensembl und Refseq gibt, die auf unterschiedlichen Genomanmerkungen basieren (und die in den meisten Fällen auch nicht untereinander austauschbar sind).

Sie können jedoch leicht strong übersetzen > Die meisten [1] Ihrer Refseq-IDs zu ENSEMBL-IDs und umgekehrt mit Tools wie beispielsweise http://www.ensembl.org/biomart/martview (es gibt auch dedizierte Bibliotheken / APIs wie Biocondutor: biomaRt

[1] Meistens werden sie in einer Datenbank mit Anmerkungen versehen, in der anderen jedoch (noch) nicht >

BEARBEITEN

In Ordnung, auch wenn die Leute dazu neigen, sich an das zu halten, was sie gewohnt sind (und dass die Anmerkungen ständig erweitert und korrigiert werden), je nach Forschungsthema Man könnte daran interessiert sein, eine Datenbank über eine andere zu verwenden:

Von Zhao S, Zhang B. Eine umfassende Bewertung von Ensembl-, RefSeq- und UCSC-Annotationen im Kontext von RNA-seq-Read-Mapping und -Gen Quantifizierung. BMC Genomics. 2015; 1 6: 97. Papier:

Bei der Auswahl einer Annotationsdatenbank sollten Forscher berücksichtigen, dass keine Datenbank perfekt ist und einige Genanmerkungen möglicherweise ungenau oder völlig falsch sind. [..] Wu et al. [27] schlugen vor, dass bei der Durchführung von Forschungen, bei denen reproduzierbare und robuste Genexpressionsschätzungen im Vordergrund stehen, eine weniger komplexe Annotation des Genoms wie RefGene bevorzugt werden könnte. Bei explorativeren Untersuchungen sollte eine komplexere Annotation des Genoms wie Ensembl gewählt werden.

[..‹

[27] Wu P-Y, Phan JH, Dr. Wang. Bewertung des Einflusses der Wahl der Annotation des menschlichen Genoms auf die Schätzungen der RNA-seq-Expression. BMC Bioinformatik. 2013; 14 (Suppl 11): S8. doi: 10.1186 / 1471-2105-14-S11-S8.

#2
+11
rightskewed
2017-05-17 07:29:24 UTC
view on stackexchange narkive permalink

Ensembl vs Gencode

https://www.gencodegenes.org/faq.html

Die GENCODE-Annotation wird durch Zusammenführen erstellt die manuelle Genanmerkung in Havanna und die automatisierte Genanmerkung von Ensembl. [...] In der Praxis ist die GENCODE-Annotation mit der Ensembl-Annotation identisch.

Für die Unterschiede in der GTF-Datei gilt Folgendes:

Die einzige Ausnahme ist, dass die Gene, die den menschlichen Chromosom X- und Y PAR-Regionen gemeinsam sind, zweimal im GENCODE GTF gefunden werden können, während sie nur für Chromosom X in der Ensembl-Datei gezeigt werden.

Gencode (Ensembl) vs RefSeq

Gencode ist in fast allen Fällen umfassender. Dies ist beispielsweise NCBI RefSeq vs Ensembl (v24, Release 83) für das BRCA-Gen: enter image description here

RefSeq und Gencode sind in den meisten Fällen nicht austauschbar, obwohl RefSeq-Annotationen dies tun oft eine Teilmenge der Gencode sein.

Wie macht der BRCA-Screenshot Ihren Standpunkt? Es ist auf den ersten Blick nicht sehr offensichtlich (zumindest für mich)
#3
+6
Ian Sudbery
2017-05-17 18:34:35 UTC
view on stackexchange narkive permalink

Um den Aussagen anderer praktische Ratschläge hinzuzufügen:

In praktischer Hinsicht besteht der größte Unterschied zwischen RefSeq und Ensembl / GENCODE im Kompromiss zwischen Sensitivität und Spezifität.

Ensembl zielt mehr auf das inklusive Ziel ab, einschließlich einer weitaus größeren Anzahl von Transkriptvarianten, von denen viele nur schwach unterstützt werden.

RefSeq tauscht einen Teil dieser Sensitivität gegen Spezifität - Sie können Seien Sie sicherer, dass ein RefSeq-Transkript vorhanden ist, aber weniger sicher, dass die ReqSeq-Annotation alle realen Transkripte für ein Gen enthält.

Aus diesem Grund bevorzuge ich die Ensembl-Annotation, da Sie nach einem äußerst sicheren Satz fragen können, indem Sie nur die Havanna-Transkripte (Havanna oder Ensembl / Havanna) auswählen. Siehe: http://www.ensembl.org/Help/Faq?id=152
#4
+1
Zz...zZ
2017-10-04 18:52:40 UTC
view on stackexchange narkive permalink

Während Annotationen zwischen RefSeq und Gencode nicht so unterschiedlich sind wie die codierenden Regionen (Gene), ist Gencode in den intergenen Regionen viel reicher. Dies könnte für epigenetische Studien, bei denen eine Regulierung von Interesse ist, sehr vorteilhaft sein.

Hallo! Gibt es eine Veröffentlichung oder anderes Material, das Sie zu Ihrem Anspruch verlinken könnten? Das wäre sehr interessant ...
#5
+1
Max
2019-08-07 15:19:05 UTC
view on stackexchange narkive permalink

In den häufig gestellten Fragen zu UCSC-Genombrowser-Genen wird diese Frage ausführlich behandelt: https://genome.ucsc.edu/FAQ/FAQgenes.html#ens

Offiziell sind die Ensembl- und GENCODE-Genmodelle gleich. Bei den neuesten Genomassemblierungen von Mensch und Maus (hg38 und mm10) sind die Identifikatoren, Transkriptsequenzen und Exonkoordinaten zwischen äquivalenten Ensembl- und GENCODE-Versionen (mit Ausnahme alternativer Sequenzen oder Fixsequenzen) nahezu identisch.

GENCODE verwendet die UCSC-Konvention, Chromosomennamen mit "chr" zu versehen, z "chr1" und "chrM", aber Ensembl nennt diese "1" oder "MT". Zum Zeitpunkt des Schreibens (Ensembl 89) unterscheiden sich einige Transkripte aufgrund von Konvertierungsproblemen. Zusätzlich werden in GENCODE rund 160 PAR-Gene dupliziert, in Ensembl jedoch nur einmal. Die Unterschiede betreffen weniger als 1% der Transkripte. Abgesehen von der Genanmerkung selbst unterscheiden sich die Links zu externen Datenbanken.

Der GENCODE-Release-Verlauf zeigt die Release-Daten und kann mit entsprechenden Ensembl-Releases verknüpft werden. Sie können die Gentranskriptmodelle von der Website https://gencodegenes.org oder von http://ensembl.org herunterladen. Für die meisten Anwendungen sollten die auf der GENCODE-Website verteilten Dateien einfacher zu verwenden sein, da die Datenbankverknüpfungen von Drittanbietern einfacher zu analysieren sind und die Sequenzkennungen zumindest für die primären Chromosomen mit den UCSC-Genomdateien übereinstimmen.

Weitere Informationen zu dieser Frage finden Sie auf der GENCODE-FAQ-Seite.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...