Frage:
Wie übertrage ich gff-Annotationen im Genom mit umfangreichen Duplikaten?
scalefreegan
2017-05-31 16:01:10 UTC
view on stackexchange narkive permalink

Mikrobielle Genome können umfangreiche Duplikationen enthalten. Oft möchten wir Anmerkungen von einer mit Anmerkungen versehenen Art auf eine neu sequenzierte übertragen.

Bestehende Tools (z. B. RATT, LiftOver, Kraken) treffen entweder spezifische Annahmen darüber, wie eng die Spezies verwandt sind, oder können nicht übertragen werden, wenn im neuen Genom mehrere Übereinstimmungen gefunden werden, insbesondere wenn die Sequenzen sehr ähnlich sind.

Insbesondere habe ich eine synthetische biologische Anwendung, bei der Gene weitgehend dupliziert werden können. Sie sind in der Reihenfolge identisch, aber viele Male dupliziert und werden verschoben (d. H. Nicht nur nebeneinander). Keines der oben genannten Tools kann Koordinaten von Annotationen an Genome mit mehreren Kopien von Features übertragen.

Gibt es in diesem Szenario bereits Tools oder Software, die Annotationen übertragen? Ideen, wie Sie dies robust tun können?

Können Sie mehr Details liefern? Was ist Ihre Eingabe (z. B. unformatierte Lesevorgänge, Assemblys, offene Leserahmen)? Welche Art von Sequenzierung? Was ist die genaue Ausgabe, die Sie wollen? „Ich bin nicht sicher, ob ich Ihren Standpunkt zu den Annahmen verstehe. Außerdem sind LiftOver und Kraken völlig unterschiedliche Werkzeuge mit unterschiedlichen Verwendungszwecken
Wäre das überhaupt theoretisch möglich? Wie können Sie davon ausgehen, dass die Anmerkungen bei umfangreichen Duplikaten übertragbar sind? Es ist wahrscheinlich besser, stattdessen nach Homologen zu suchen.
@terdon meinst du Orthologe? Homologe = Orthologe (nicht dupliziert) + Paralogs (dupliziert)
@Chris_Rands Nein, ich meinte Homologe. Gerade weil wir nicht wissen können, ob sie ortho- oder para- sind (ich habe einen schönen Beitrag über den Unterschied zwischen den beiden [hier] (https://biology.stackexchange.com/a/4964/1306), von der Sie können also zuerst nur Homologe finden und dann herausfinden, ob sie ähnlich genug sind, um Anmerkungen zu übertragen.
@terdon Ich sehe, dass das Auflösen von Orthologen / Paralogs natürlich nicht einfach ist, aber es kann abhängig von den genauen Daten durchgeführt werden (ich weiß nicht, wie die Daten des OP aussehen), zum Beispiel pflegen einige meiner Kollegen orthodb http: / /www.orthodb.org/
Oh, natürlich kann es gemacht werden! Mein Punkt war, dass die Suche nach Regionen der Homologie (welcher Art auch immer) eine bessere Möglichkeit zur Übertragung von Annotationen zu sein scheint als der Versuch, Genomkoordinaten zwischen Genomen verschiedener Arten zu übersetzen.
@Chris_Rands:-Eingabe wären Baugruppen, z. de novo aus der gDNA-Sequenzierung. Die Ausgabe wäre eine Übertragung von Annotationen (z. B. gff-Format) von charakterisierten Arten auf ein neu zusammengesetztes Genom (Koordinatentransfer). Sowohl LiftOver als auch Kraken (diesmal, um sicherzugehen, dass sie sich auf derselben Seite befinden: https://github.com/nedaz/kraken) tun dies. LiftOver besser geeignet für den Koordinatentransfer zwischen eng verwandten Sequenzen, z. verschiedene Baugruppen; Kraken verwendet das Genom-Alignment (MUMer, Satsuma), also besser für divergierende Sequenzen.
@terdon:, das zwischen Typ / Ursprung der Homologie unterscheidet, würde über den Rahmen dessen hinausgehen, was ich erreichen möchte, aber der Unterschied ist wichtig, wie Sie hervorheben. Es ist auch richtig zu sagen, dass die Übertragung kleinerer homologer Regionen besser wäre, insbesondere für divergierende Arten. Zu Ihrer Information: Ich habe eine syn-Bio-Anwendung, bei der Gene weitgehend dupliziert werden können. Sie sind in der Reihenfolge identisch, aber viele Male dupliziert und verschoben (d. h. nicht benachbart). Keines der oben genannten Tools war in der Lage, Annotationskoordinaten mit mehreren Annotationskopien auf Genome zu übertragen.
Ja, und ich würde es auch nicht erwarten. Das habe ich gesagt. Die Liftover-Tools ordnen einfach Koordinaten zu, sie werden mit solchen Dingen nicht umgehen können. Ich befürchte, Sie müssen dies manuell tun, indem Sie eine Liste der interessierenden Gene / Proteine ​​abrufen, ihre Homologen finden und die Annotationen übertragen (mit den offensichtlichen Einschränkungen, ob Sie davon ausgehen können, dass die Annotationen übertragbar sind oder nicht). Wird leider nicht viel Spaß machen.
Entschuldigung Ich dachte du meinst Kraken: http://ccb.jhu.edu/software/kraken/, wer nennt diese Tools? Jedenfalls ist dies nicht trivial, um es richtig zu machen. Sie müssen Genomassemblierung, Genvorhersagen und Ortholog / Paralog-Zuordnung durchführen. Es gibt verschiedene Pipelines (einige hier überprüft: https://www.ncbi.nlm.nih.gov/pubmed/27043882), aber sie werden einige Zeit dauern. alternativ erscheinen die Vorschläge von @terdon für etwas „schnelleres und schmutzigeres“ sinnvoll
Zwei antworten:
#1
+5
BaCh
2017-05-31 20:34:48 UTC
view on stackexchange narkive permalink

Es gibt eine sehr vereinfachte Methode, mit der möglicherweise für Ihre Arbeit funktioniert. Sie ähnelt der von Terdon vorgeschlagenen.

Nehmen Sie eine De-novo-Annotation zum mikrobiellen Genom Tool (Ich habe mein eigenes, aber Sie können prokka verwenden / ändern). Werkzeuge wie diese sagen häufig zuerst Gengrenzen voraus (mit anderen Werkzeugen wie verschwenderisch oder schimmernd) und versuchen dann, gefundenen Genen eine Funktion zuzuweisen. Diese Funktionszuweisung wird häufig mit BLAST und anderen Tools durchgeführt. Hier können Sie Änderungen vornehmen, um das zu tun, was Sie benötigen.

Ich verwende eine "Wissens" -Protein-Datenbank mit Genen, die ich verwenden möchte haben als erste Annotationszeile sehr streng annotiert (zB in Ihrem Fall: die annotierten Genome). Dazu durchlaufe ich sehr strenge Identitäts- / Ähnlichkeitsparameter, die allmählich gelockert werden.

ZB: Schleife 0: nur Annotationen bei 100% DNA-Identität übertragen, gleiche Länge. Schleife 1: nur Annotationen bei 100% Ähnlichkeit übertragen , gleiche Länge.Schleife 2: nur Übertragungsanmerkungen mit 99% Ähnlichkeit, Länge +/- 1% .... Schleife n: nur Übertragungsanmerkungen mit 100- (n-1)% Ähnlichkeit, Länge +/- (n-1) )%.

Kommentieren Sie in jeder Schleife offensichtlich nur das, was in früheren Schleifen nicht kommentiert wurde.

Verwenden Sie danach die "normale" Annotationspipeline des Tools, um den Rest zu kommentieren.

Erfordert das nicht, dass zuerst die Gene des Zielgenoms gefunden wurden? Oder kann Ihr Tool auch eine De-novo-Genvorhersage durchführen? (klingt übrigens nach einem sehr nützlichen Werkzeug, ein dickes Lob!)
Das Auffinden / Vorhersagen prokaryotischer Gene ist ein mehr oder weniger gelöstes Problem. Die vorhandenen Tools funktionieren recht gut. Siehe http://prodigal.ornl.gov/ und http://prodigal.ornl.gov/ (um nur zwei zu nennen).
Ja, ich weiß, ich war nur überrascht, dass Sie das in Ihrer Antwort nicht erwähnt haben. Wenn ich das richtig verstehe, wäre der erste Schritt für das OP, die Liste der mutmaßlichen Gene in ihrem neu sequenzierten Genom zu finden, oder?
Richtig. Prokka (http://www.vicbioinformatics.com/software.prokka.shtml) verwendet eine ganze Reihe von Tools von Drittanbietern (einschließlich verlorener), um ein Genom de-novo zu kommentieren. Ich begann damit, prokka zu modifizieren, bevor ich mein eigenes schrieb , die einige Ideen aus der Prokka-Pipeline verwendet.
#2
+3
terdon
2017-05-31 19:04:23 UTC
view on stackexchange narkive permalink

Ich denke, Sie müssen zuerst die Regionen identifizieren, die zu den in Ihrer GFF definierten Regionen homolog sind, und dann die Anmerkungen übertragen. Die Annahme dort ist natürlich, dass das Homolog auch die gleiche Anmerkung hat, was oft nicht wahr ist. Ich sehe jedoch nicht ein, wie Sie es auf andere Weise tun können, da Sie keine Genomkoordinaten verwenden können (und Sie würden immer noch die gleiche Annahme machen, selbst wenn Sie es könnten), wenn die Genome so unterschiedlich sind.

Für einen sehr vereinfachten Ansatz (der ausreichen könnte, wenn Ihre Sequenzen, wie Sie sagen, fast identisch sind), können Sie Folgendes tun:

  1. Sammeln Sie die interessierenden Sequenzen von Ihrer bereits kommentierten Art.

  2. Verwenden Sie ein Tool wie genewise oder entlasten , um diese dem Zielgenom zuzuordnen. Beide Tools können eine gff-formatierte Ausgabe zurückgeben und beide können mehrere Treffer im Zielgenom finden. Für das, was Sie möchten, würde ich vorschlagen, einen sehr hohen Schwellenwert für Sequenzähnlichkeit und Abfrageabdeckung zu verwenden (wobei die gefundene Zielsequenz die gesamte oder den größten Teil der verwendeten Abfragesequenz abdeckt).

    Da es sich um mikrobielle Genome handelt und daher Das Spleißen ist kein Problem. Sie können dasselbe auch mit einem einfachen BLASTn oder tBLASTn tun, wenn Sie von Proteinsequenzen ausgehen.

  3. Zu diesem Zeitpunkt sollten Sie eine Liste haben von Homologen (von denen einige Orthologe und andere Paralogs sind) und Sie können die Anmerkungen der Abfragesequenz auf das Ziel übertragen.

  4. ol>

    Ich betone noch einmal, dass dies eine unglaubliche Annahme ist: Homologe Sequenzen haben dieselbe Funktion und können automatisch mit Anmerkungen versehen werden, wie Sie sie im Abfragegenom hatten. Dies wird in vielen Fällen zutreffen, aber auch in anderen. Insbesondere, wenn Sie sich Paralogs ansehen (Gene, deren Duplizierung nach dem Speziationsereignis aufgetreten ist und deren Funktion daher wahrscheinlich unterschiedlich ist).

    Wie ich bereits sagte, wäre dieses Problem genau das gleiche, selbst wenn Sie es geschafft hätten, Anmerkungen zu übertragen, indem Sie nur die syntenischen Regionen des Genoms 1 sup> identifiziert haben, sodass es dort keinen großen Unterschied gibt.


    1 sup> Wie ich in den Kommentaren sagte, sehe ich nicht, wie dies möglich sein könnte. Per Definition sind die Genomkoordinaten bei umfangreichen Duplikaten völlig unterschiedlich und es ist unmöglich, von einem Genom in das andere abzubilden. sub>



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...