Warum sieht die FASTA-Sequenz für Coronavirus wie DNA aus, nicht wie RNA?

Frage:

Warum sieht die FASTA-Sequenz für Coronavirus wie DNA aus, nicht wie RNA?

jameshfisher

2020-02-09 23:13:16 UTC

view on stackexchange narkive permalink

Ich betrachte eine Genomsequenz für 2019-nCoV auf NCBI. Die FASTA-Sequenz sieht wie folgt aus:

  >MN988713.1 Wuhan Fischmarkt Pneumonien Virusisolat 2019-Ncov / USA-IL-1/2020, komplett genomeATTAAAGGTTTATACCTTCCCAGGTAACAAACCAACCAACTTTCGATCTCTTGTAGATCTGTTCTCTAAACGAACTTTAAAATCTGTGTGGCTGTCACTCGGCTGCATGCTTAGTGCACTCACGCAGTATAATTAATAACTAATTACTGTCGTTGACAGGACACGAGTAACTCGTCTATCTTCTGCAGGCTGCTTACGGTTTCGTCCGTG ... ... TTAATCAGTGTGTAACATTAGGGAGGACTTGAAAGAGCCACCACATTTTCACCGAGGCCACGCGGAGTACGATCGAGTGTACAGTGAACAATGCTAGGGAGAGCTGCCTATATGGAAGAGCCCTAATGTGTAAAATTAATTTTAGTAGTGCTATCCCCATGTGATTTTAATAGCTTCTTAGGAGAATGACAAAAAAAAAAAA

Coronavirus ist ein RNA-Virus, daher hatte ich erwartet, dass die Sequenz aus AUGC -Zeichen besteht. Aber die Buchstaben hier sind ATGC , was wie DNA aussieht!

Ich habe eine mögliche Antwort gefunden, dass dies die Sequenz einer "komplementären DNA" ist . Ich habe gelesen, dass

der Begriff cDNA auch verwendet wird, typischerweise in einem bioinformatischen Kontext, um sich auf die Sequenz eines mRNA-Transkripts zu beziehen, ausgedrückt als DNA-Basen (GCAT) anstatt RNA-Basen (GCAU).

Ich glaube jedoch nicht, dass es sich bei dieser Theorie um eine cDNA handelt. Wenn dies wahr wäre, wäre das Ende der wahren mRNA-Sequenz ... UCUUACUGUUUUUUUUUUUU oder ein "Poly (U)" - Schwanz. Ich glaube jedoch, dass das Coronavirus einen Poly (A) -Schwanz hat.

Ich fand auch, dass der Beginn aller hervorgehobenen Gene mit der Sequenz ATG beginnt. Dies ist das DNA-Äquivalent von dem RNA-Startcodon AUG .

Ich glaube also, dass ich die wahre mRNA in 5 betrachte '→ 3' Richtung, aber mit allen U konvertiert in T.

Also, ist das wirklich das, was ich sehe? Ist dies ein Formatierungs- / Darstellungsproblem? Oder enthält 2019-nCoV wirklich DNA statt RNA?

Entschuldigen Sie meine Unwissenheit, aber ich habe am Ende dieser Sequenz viel mehr "AAA" (3 "Poly (A) -Schwanz) erwartet. Verwechsle ich hier mehrere Formate oder fehlt Ihrer Sequenz ein Teil? Ist dies das Ergebnis der Transkription von RNA als DNA?

[sollte 11 Drillinge sein, 33 mal A] (https://bioinformatics.stackexchange.com/q/11227)

Fünf antworten:

Michael

2020-02-10 01:10:09 UTC

view on stackexchange narkive permalink

Das ist die richtige Reihenfolge für 2019-nCov. Coronavirus ist natürlich ein RNA-Virus, und meines Wissens ist jedes RNA-Virus in Genbank als cDNA (AGCT, dh Thydmin) und nicht als RNA (AGCU, dh Uracil) vorhanden.

Der Grund ist Einfach gesagt, wir sequenzieren niemals direkt aus RNA, da RNA zu instabil ist und durch RNase leicht abgebaut wird. Stattdessen wird das Genom entweder durch gezielte reverse Transkription oder zufällige Amplifikation revers transkribiert und somit in cDNA umgewandelt. cDNA ist stabil und ist im Wesentlichen revers transkribierte RNA. Die cDNA wird entweder direkt sequenziert oder durch PCR weiter amplifiziert und dann sequenziert. Daher ist die Sequenz, die wir beobachten, eher die cDNA als die RNA, also beobachten wir eher Thymin als Uracil, und so wird darüber berichtet.

* Es ist wirklich schwierig, direkt von einem Patienten aus zu sequenzieren * Es wurde durchgeführt ([Direkte RNA-Sequenzierung des vollständigen Influenza-A-Virus-Genoms] (https://www.biorxiv.org/content/10.1101/300384v3)), aber natürlich Das ändert hier nichts an der richtigen Antwort. Nahezu die gesamte Sequenzierung von RNA-Viren erfolgt über cDNA.

Hallo @iayork,, danke, ich akzeptiere es machbar, aber z. Ein Risiko ist ein schlampiger Nasslaborfehler, und die vRNA wird abgebaut, z. vRNA wird bei -70 ° C gespeichert und benötigt RNase-Inhibitoren, virale cDNA wird bei -20 ° C gespeichert und niemand kümmert sich darum. Manchmal gibt es rechtliche Probleme (dies sind Krankheitserreger).

ATpoint

2020-02-10 01:03:38 UTC

view on stackexchange narkive permalink

Die meisten Sequenzierungsexperimente, sei es die Illumina-basierte Sequenzierung der nächsten Generation oder die Sanger-Sequenzierung, verwenden DNA als Matrize, nicht RNA. Selbst wenn dieses Virus auf RNA basiert, würde es vor jedem Sequenzierungsexperiment revers transkribiert. Daher ist die Ausgabe DNA und dies ist, was NCBI hier bereitstellt.

Konrad Rudolph

2020-02-10 22:22:44 UTC

view on stackexchange narkive permalink

Wenn dies [cDNA] wäre, wäre das Ende der wahren mRNA-Sequenz ... UCUUACUGUUUUUUUUUUUU oder ein "Poly (U)" - Schwanz.

Eine cDNA Die Sequenz bezieht sich möglicherweise verwirrend auf den codierenden Strang der cDNA (obwohl sie als "komplementär" bezeichnet wird). Während cDNA das Ergebnis der reversen Transkription von RNA in DNA ist, weist sie konventionell die gleiche Strangigkeit wie die ursprüngliche RNA auf. Deshalb wird das, was Sie sehen, in 5 '→ 3' Richtung gelesen und enthält einen sichtbaren Poly (A) -Schwanz. Eine einzige herkömmliche Leserichtung für alle archivierten Sequenzen vereinfacht die Datenverarbeitung erheblich und reduziert Fehler.

Da cDNA doppelsträngig ist, gibt es keinen a priori Grund, warum eine computergespeicherte cDNA-Sequenz verwendet werden sollte beziehen sich auf den Matrizenstrang (dh den gegenüberliegenden Strang, der während der reversen Transkription aus der RNA synthetisiert wird).

Der gesamte (vereinfachte) Synthesevorgang von cDNA ist wie folgt:

Ein Primer hybridisiert mit dem Template-RNA-Molekül.
Das RNA-Template wird unter Verwendung von reverser Transkriptase revers in DNA transkribiert.
Das RNA-Template wird entfernt.
Ein komplementärer Strang wird entlang der (derzeit) einzelsträngigen cDNA transkribiert, was zu einem doppelsträngigen cDNA-Produkt führt.

gringer

2020-02-11 01:05:23 UTC

view on stackexchange narkive permalink

Es ist nicht üblich, direkt aus RNA zu sequenzieren, da die meisten Sequenzierungsplattformen dies nicht als Option haben. Nanoporen-Sequenzer erlauben dies, aber mir sind noch keine 2019-nCov-Preprints bekannt, die eine Nanoporen-RNA-Sequenzierung beinhalten. Ich gehe davon aus, dass sich dies im nächsten Monat ändern wird.

Es gibt kommerzielle Kits. Es gibt keine unüberwindlichen technischen Probleme. Die direkte RNA-Sequenzierung kann lokal vor Ort in der Nähe des Entdeckungspunkts ohne Probentransfer oder Kultur auf einem USB-Gerät durchgeführt werden, das in eine Tasche passt (die RNA-Vorbereitung dauert ca. 2 Stunden). Durchflusszellen mit potenziell infektiöser RNA können als biologisch gefährlicher Abfall entsorgt werden. Die Leichtigkeit, mit der RNA schnell in stabilere cDNA umgewandelt und dann amplifiziert werden kann, um eine DNA-Probe mit viel höherer Konzentration zu erzeugen (die schneller / effizienter ist, um Ergebnisse zu erhalten), bedeutet jedoch, dass cDNA im Allgemeinen für die Sequenzierung bevorzugt wird, es sei denn, die native RNA ist erforderlich (z. B. zur Untersuchung von RNA-Basenmodifikationen, die bei der Umwandlung in cDNA zerstört werden).

Hier gibt es ein Papier zur direkten RNA-Sequenzierung von Coronaviren mit Nanoporen ; Ich würde erwarten, dass 2019-nCoV eine ähnliche Schwierigkeit haben würde. Das Zika-Virus hat eine extrem niedrige Viruslast im menschlichen Blut, wurde jedoch auch durch direkte RNA-Sequenzierung von [sorgfältig] kultivierten Zellen sequenziert (siehe hier).

Unabhängig davon, ob Wenn keine RNA-Sequenzierung durchgeführt wurde, funktionieren die meisten genetischen Datenanalyseprogramme nur mit A / C / G / T-Sequenzen. Daher ist es üblich, U-Teile einer RNA-Sequenz zur Datenspeicherung durch T zu ersetzen. Auf diese Weise gehen keine Informationen verloren, da T alle Us in der RNA-Sequenz ersetzt.

Dank @gringer Es ist erwähnenswert, dass das RNA-Molekül für viele RNA-Viren ein Bioterrorist in der Terrorismusgesetzgebung ist, z. UK Schedule 5 Gesetze. Dies liegt daran, dass das lebende Virus gewonnen werden kann, wenn die RNA in Zellkultur transfiziert wird. cDNA bietet einen Weg, um dies zu verhindern. 2019-nCov wird mit ziemlicher Sicherheit in die Liste Großbritanniens aufgenommen.

science lover

2020-03-25 21:15:47 UTC

view on stackexchange narkive permalink

Ich habe gerade gesucht, dass GenBank Nukleotidsequenzen akzeptiert, ich habe nirgendwo cDNA gesehen und im Wuhan Coronavirus wird es erwähnt / mol_type = "genomische RNA"

Ich bin neugierig

Es ist das Vorhandensein der Thyminreste (T) anstelle von Uracil (U) in den Daten

Willkommen auf der Website. Dies scheint eher ein Kommentar als eine Antwort zu sein.

ⓘ

Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 4.0-Lizenz, unter der er vertrieben wird.

über - juristisches

Loading...