Frage:
Konvertieren von Gennamen von einem öffentlichen Datenbankformat in ein anderes
gringer
2017-06-06 18:38:20 UTC
view on stackexchange narkive permalink

Dies ist eine Frage von / u / apivan19 auf reddit. Den Originalbeitrag finden Sie hier.

Ich habe einige Proteomikdaten, die mir mit den UniProt-Genidentifikatoren in Spalte 1 übermittelt wurden. Ich habe es versucht Diese mit verschiedenen Programmen in normale Gensymbole umzuwandeln, erweist sich jedoch als schwierig.

Die Uniprot-Website macht dies recht anständig, kann jedoch nicht alle konvertieren und fügt dann einige unbekannte Gene hinzu in meine Liste.

Zum Beispiel werde ich ihm 5439 Gene in UniProt-Notation geben und sagen "5420 von 5439 UniProt-Identifikatoren wurden in 5450 Gensymbole konvertiert" ... was lächerlich ist.

Ich habe versucht, die Symbole mit David zu ändern, aber es gibt sie in einer lächerlichen, zufälligen Reihenfolge an mich zurück, und ich kann sie nicht sortieren ... tatsächlich könnte es eine geben, aber es dauert eine Sekunde.

Was sind die einfachsten Möglichkeiten, dies zu tun? Es ist bereits sehr zeitaufwändig und suche nach einfacheren Lösungen

Sechs antworten:
#1
+9
Konrad Rudolph
2017-06-06 19:16:39 UTC
view on stackexchange narkive permalink

Ich neige dazu, Ensembl Biomart für solche Abfragen zu verwenden, da es APIs für verschiedene Programmiersprachen gibt, z. biomaRt und, was vielleicht noch interessanter ist, über eine REST-API (obwohl es eine ziemlich schreckliche ist).

Um Bezeichner aus verschiedenen Datenbanken zu übersetzen, fahren Sie fort wie folgt vor:

  1. Datenbank "Ensembl-Gene" auswählen
  2. Datensatz Ihren gewünschten Organismus auswählen
  • Weiter mit "Filter" ›“ Gene: ”› “Externe Referenz-ID-Liste eingeben”
    1. Wählen Sie die ausgewählte Quelldatenbank aus
    2. Geben Sie eine Liste von IDs an, die durch Zeilenumbruch
    3. ol> begrenzt sind li>
    4. Gehen Sie zu „Attribute“ ›„ Gene: “› Deaktivieren Sie „Transcript Stable ID“
      1. Wenn Ensembl-IDs gewünscht werden, lassen Sie „Gene Stable ID“ aktiviert…
      2. Andernfalls deaktiviere es; Gehen Sie zu "Extern:" und kreuzen Sie das gewünschte Bezeichnerformat an.
      3. ol>
    5. Klicken Sie oben links auf "Ergebnisse". Dies gibt eine Vorschau, die in verschiedene Formate exportiert werden kann. Alternativ stellen die Schaltflächen in der oberen Mitte "XML" und "Perl" die Abfrage in XML (für SOAP / REST-Anforderungen) und als (schrecklich formatiertes) ausführbares Perl-Skript bereit.
    6. ol>
Das Biomart "Genamen" kann hierfür sehr nützlich sein - es verfügt über eine schöne Benutzeroberfläche für die Massenübersetzung, deckt eine Vielzahl von Kennungen ab, kann auf Synonyme oder nicht mehr existierende Namen zugreifen usw. Der Dienst ist jedoch manchmal wie ein Jojo und einige auf und ab Wrapper-Client-Bibliotheken sind bei Versionen von Biomart schwierig.
@agapow Absolut einverstanden. :-(
#2
+8
Andrew
2017-06-06 22:52:18 UTC
view on stackexchange narkive permalink

Wenn Sie gerne ein wenig programmieren, lesen Sie mygene.info (Webdienste für Genanmerkungen aller Art). Die ID-Übersetzung ist speziell einer der Anwendungsfälle, die im Bioconductor Client behandelt werden (siehe Vignette), und es gibt auch einen Python Client durch pypi. Die Dokumentation zu mygene finden Sie hier.

#3
+4
arupgsh
2017-06-06 23:32:15 UTC
view on stackexchange narkive permalink

Sie können dasselbe mit dem AnnotationDbi -Paket von Bioconductor tun. Laden Sie die organismusspezifische Annotationsdatei wie org.Mm.eg.db für die Maus herunter und ordnen Sie die aktuellen Gen-IDs den Gennamen / Gensymbolen zu.

#4
+3
gringer
2017-06-06 18:46:44 UTC
view on stackexchange narkive permalink

Meine bevorzugte Website zur Konvertierung von Gendatenbanken ist db2db. Sie stellen eine Liste von IDs in einem von vielen verschiedenen öffentlichen Formaten bereit und können eine oder mehrere IDs als Übersetzungsziele auswählen. Anschließend werden verschiedene bekannte Pfade durchlaufen, um die Übersetzung durchzuführen. Dabei wird die Route ausgewählt, die für Sie am zuverlässigsten ist, um die von Ihnen angeforderten Informationen zu erhalten. Die Ergebnisse werden im Browser als Tabelle angezeigt, können aber auch als Excel-Datei oder als durch Tabulatoren getrennte Textdatei exportiert werden.

Beachten Sie, dass die Zuordnung von Genen von einer Datenbank zu einer anderen keine ist -zu-eins-Zuordnung. Es ist wahrscheinlich, dass die Quellendatenbank einige Gene enthält, die mehreren Genen in der Zieldatenbank zugeordnet sind (und umgekehrt ), und einige Gene, die nicht in der Zieldatenbank vorhanden sind. Diese Phänomene erklären wahrscheinlich die "lächerlichen" Ergebnisse, die hier gesehen wurden.

#5
+3
morgantaschuk
2017-06-06 19:37:23 UTC
view on stackexchange narkive permalink

Ich bin kein großer Fan des Ensembl BioMart-Systems, weil ich es schwierig finde, es zu verwenden. Der Synergizer hat eine sehr einfache Oberfläche und funktioniert für die meisten Listen ziemlich gut. Hinweis: Es wurde seit einiger Zeit nicht mehr aktualisiert.

#6
+2
ithinkiam
2017-07-11 14:18:12 UTC
view on stackexchange narkive permalink

Bei weitem meine bevorzugte Option, dies manuell zu tun, ist PICR: http://www.ebi.ac.uk/Tools/picr/

Übrigens ist es nicht " lächerlich ", um eine unterschiedliche Anzahl von Genen für einen bestimmten Satz von Proteinen zu erhalten. Aus mehreren Gründen:

  1. Uniprot-IDs können verschwinden, zusammengeführt oder aufgeteilt werden.
  2. Nicht alle Uniprot- und Gen-IDs haben eine 1: 1-Beziehung
  3. Je nach Art können einige Gensymbole mehrdeutig oder synonym sein.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...