Frage:
Gibt es RepBase-Alternativen für genomweite Annotationen von Wiederholungselementen?
Konrad Rudolph
2017-06-01 16:11:10 UTC
view on stackexchange narkive permalink

Ich verwende die RepBase-Bibliotheken in Verbindung mit RepeatMasker, um genomweite Annotationen von Wiederholungselementen zu erhalten, insbesondere für transponierbare Elemente.

Dies funktioniert gut genug und scheint Um der De-facto-Standard auf diesem Gebiet zu sein.

Es gibt jedoch zwei Probleme bei der Verwendung von RepBase, weshalb ich (und andere) nach Alternativen gesucht haben (bisher ohne Erfolg):

  1. RepBase ist keine offenen Daten. Ihre akademische Lizenzvereinbarung enthält eine Klausel, die die Verbreitung von aus RepBase abgeleiteten Daten ausdrücklich untersagt. Es ist unklar, inwieweit dies bindend / durchsetzbar ist, aber es verhindert effektiv, dass zumindest einige der von mir verwendeten und generierten Daten veröffentlicht werden. Dies ist für offene Wissenschaft nicht akzeptabel.

    • Unter diesem Hintergrund macht es das Abonnementmodell von RepBase auch unmöglich, RepBase in vollautomatisierte Pipelines zu integrieren, da Benutzerinteraktion erforderlich ist RepBase zu abonnieren und die Anmeldeinformationen anzugeben.
  2. RepBase wird stark manuell kuratiert. Das ist sowohl gut als auch schlecht. Gut, denn die manuelle Kuratierung von Sequenzdaten ist häufig die zuverlässigste Form der Kuration. Auf der anderen Seite ist die manuelle Kuration von Natur aus voreingenommen. und schlimmer noch, es ist schwierig, diese Verzerrung zu quantifizieren - dies wird von den RepBase-Betreuern anerkannt.

  3. ol>
Haben Sie nur nach definierten Wiederholungsbibliotheken gefragt? Ich habe es etwas weiter gefasst, was Werkzeuge betrifft, mit denen auch die Bibliotheken erstellt werden (was relevant wird, wenn Genome aus neuen Taxa sequenziert werden).
@Chris_Rands Beide (Bibliotheken und Tools). Ihre Antwort ist genau richtig.
Das Ziel ist es, die kommentierte Bibliothek von Wiederholungen aufzubauen oder sich wiederholende Teile eines Genoms zu maskieren?
@KamilSJaron Ich arbeite mit TEs, daher benötige ich die kommentierte Bibliothek, nicht (nur) eine wiederholte maskierte Sequenz.
Autsch, aber für TEs, die nur eine Teilmenge sich wiederholender Regionen sind, gibt es spezielle Tools, um sie zu kommentieren (wie [DNApipeTE] (https://github.com/clemgoub/dnaPipeTE) und [REPET] (https: //urgi.versailles). inra.fr/Tools/REPET)). Vielleicht könnten Sie es in der Frage angeben.
@KamilSJaron Schön, und das könnte eine Antwort wert sein. Ich werde auch die Frage aktualisieren. Das heißt, ich bitte auch um sich wiederholende Elemente jenseits von TEs.
Sind Sie auch sicher, dass RepBase gegen Veröffentlichungen ist, die Informationen basierend auf ihren Daten ableiten? Könnte es sein, dass sie einfach nicht möchten, dass Sie die von ihnen bereitgestellten Rohdaten und Dateien freigeben. Da sie eine gute Anzahl von Zitaten in verschiedenen Bereichen haben: https://scholar.google.de/scholar?um=1&ie=UTF-8&lr&cites=11574259945967474319
@story Sie sagen dies buchstäblich in der akademischen Benutzervereinbarung, auf die ich verweise. Hier das relevante Zitat: "Sie erklären sich damit einverstanden, die Repbase (oder einen Teil davon, einschließlich Repbase-Berichten, Wiederholungskarten ** und anderen abgeleiteten Materialien, modifiziert oder nicht **) niemandem außerhalb Ihrer Forschungsgruppe zur Verfügung zu stellen." Hervorhebung von mir. Tatsächlich verbietet mir eine andere Klausel in der Vereinbarung sogar die Unterzeichnung, da mein Institut die Hinterlegung öffentlicher Daten verlangt, sodass ich solche Vereinbarungen wahrscheinlich nicht unterzeichnen darf. "
Ja, das scheint mit meiner vorherigen Aussage übereinzustimmen. Ich denke, mein Punkt ist, was genau mussten Sie teilen (basierend auf Ihrem ursprünglichen Beitrag), das aus ihrer Datenbank berücksichtigt werden würde? Ich bin der Meinung, dass dies nicht die Anzahl der Funktionen beinhalten würde, aber Sequenzen könnten ein Problem sein.
@story Ich muss möglicherweise alle Daten freigeben, die in meiner Analyse verwendet / generiert wurden. Dies umfasst insbesondere die von mir verwendete spezifische Wiederholungsanmerkung, die von RepBase abgeleitet ist, sowie möglicherweise Sequenzdaten aus diesen Wiederholungen.
Dies mag eine alte Frage sein, aber jemand versucht, eine neue, offene Alternative zu repBase einzurichten (die ich in vollem Umfang kommerziell nutzen werde), oder zumindest sehe ich das so: https://twitter.com/ TransposableMan / status / 1060519887897067521
Sechs antworten:
#1
+12
Konrad Rudolph
2017-06-01 17:15:48 UTC
view on stackexchange narkive permalink

Dfam hat kürzlich eine Schwesterressource gestartet, Dfam_consensus , deren erklärtes Ziel es ist, RepBase zu ersetzen. Aus der Ankündigung:

Dfam_consensus bietet der Community einen offenen Rahmen zum Speichern sowohl von Seed-Alignments (mehrere Alignments von Instanzen für eine bestimmte Familie) als auch des entsprechenden Consensus-Sequenzmodells.

Sowohl RepeatMasker als auch RepeatModeler wurden aktualisiert, um Dfam_consensus zu unterstützen.

Ich habe es noch nicht ausprobiert, aber es sieht vielversprechend aus.

#2
+6
Jens Bast
2017-06-27 13:06:22 UTC
view on stackexchange narkive permalink

Für bereits vorhandene zuverlässige TE-Bibliotheken ist dies ein bisschen chaotisch, da nicht jeder die speziesspezifischen TE-Bibliotheken in einer Datenbank wie RepBase ablegt. Und soweit ich weiß, enthält DFAM nur Humanressourcen, oder irre ich mich?

Was die de novo -Erstellung speziesspezifischer TE-Bibliotheken betrifft (was für jede Art erfolgen sollte) nicht bereits vorhanden in zB RepBase): Es gibt keinen "Goldstandard", wie man dies am besten angeht. Im Prinzip muss man über zwei Hauptteile nachdenken - Wiederholungserkennung-Annotation

Für Wiederholung Erkennung Ich würde empfehlen, eine Kombination aus zwei Dingen zu verwenden (was erforderlich ist, da TE-Kopien in den Baugruppen möglicherweise fehlen, da sich wiederholende Bereiche in der Endmontage in der Regel schwer zusammenzubauen und wegzuwerfen sind).

I) Wiederholen Sie die Erkennung anhand von Rohdaten (wie z. B. DNApipeTE oder Tedna oder RepeatExplorer). Für mich hat DNAPipeTE ganz gut funktioniert, aber alles hat Vor- und Nachteile. II) Wiederholen Sie die Erkennung von Baugruppen (wie z. B. REPET oder wie zuvor erwähnt RepeatModeler).

Dann die Annotation von Diese Wiederholungen sind ebenfalls schwierig, da die meisten Methoden auf der Homologie zwischen den de novo TEs und den TEs einiger (wahrscheinlich entfernter) verwandter Arten beruhen. Einige Programme berücksichtigen jedoch auch die Struktur (wie REPCLASS). REPET kann sowohl erkennen als auch kommentieren, ist jedoch ein Problem beim Laufen.

Ich würde empfehlen, einige Programme zu verwenden, um die De-novo-Wiederholungserkennung für Ihre interessierende Spezies sowohl bei den unformatierten Lesevorgängen als auch bei der Assembly durchzuführen, diese Bibliotheken zu gruppieren (z. B. uclust und 95% Identität) und dann eine Anmerkung auszuführen mit Homologie und struktureller Identifikation.

Wahrscheinlich liefern die Programme keine vollständigen TEs in voller Länge , sondern Konsensussequenzen mehrerer Kopien aus TE-Familien. Wenn Sie möchten, können Sie alle Kopien einer Familie durchsuchen, sie aus den Contigs plus Grenzen extrahieren und sie manuell ausrichten und Grenzen manuell kuratieren. Erweitern Sie dann die Grenzen, wenn Sie nicht auf die umgebenden (nicht ausrichtbaren) Regionen oder Orientierungspunkte von TEs wie LTRs oder TIRs oder so treffen. Dies ist jedoch sehr zeitaufwändig, wenn Sie beispielsweise nur die TE-Häufigkeit zwischen Arten vergleichen möchten. Ich würde dies nicht tun und die Häufigkeit eher anhand der Leseabdeckung vergleichen (wie in Bast et al. 2016). Hängt alles von den Fragen ab, die Sie stellen möchten.

#3
+4
Chris_Rands
2017-06-01 17:09:58 UTC
view on stackexchange narkive permalink

Sie können RepeatScout verwenden, das Wiederholungsbibliotheken für eine begrenzte Anzahl von Arten (einschließlich Mensch, Maus und Ratte) definiert hat. Wenn Ihr Taxon nicht vertreten ist, können Sie mit RepeatScout auch eine De-novo-Wiederholungsvorhersage durchführen, um eine eigene Bibliothek für den Feed an RepeatMasker zu erstellen. Die Veröffentlichung RepeatScout enthält einige Vergleiche mit RepBase. Ein weiteres verwandtes Tool ist RepeatModeler, das RepeatScout mit RECON und einigen anderen Programmen umschließt und Autoren mit dem RepeatMasker-Team teilt.

Auf der positiven Seite RepeatScout / RepeatModeler sind Open Source und verwenden keine manuelle Kuration, die Ihren Kriterien entspricht. Negativ ist, dass ich nicht genau weiß, wie RepeatModeler und die Komponententools gepflegt werden. Die RepeatScout-Web- und Github-Seiten wurden seit einigen Jahren nicht mehr aktualisiert, obwohl die RepeatModeler-Seite ihre neueste Version im Jahr 2017 zeigt. Wie auch immer, ich weiß, dass eine Kombination aus RepeatScout / RepeatModeler verwendet wurde, um Wiederholungen für einige relativ neue zu kommentieren neu sequenzierte Genome, z Für Cichliden, Coelacanth und Darwins Finken denke ich, dass es fair ist zu sagen, dass diese Art von Ansatz auf diesem Gebiet zumindest für akzeptiert wird Genomprojekte für Wirbeltiere.

#4
+4
matt
2019-02-27 22:17:14 UTC
view on stackexchange narkive permalink

AFAIK Dfam und Repbase sind derzeit die beiden besten Quellen für (eine Vielzahl von) TE-Sequenzen.

In meinen Genomanmerkungen habe ich RepeatModeler + RepeatMasker und später Repbase + tblastx und Dfam + nhmmer verwendet

Der Klassifizierungsprozess in meiner Pipeline PhyLTR ( https://github.com/mcsimenc/PhyLTR) basiert auf Dfam und Repbase. Der Prozess, den ich für die LTR-Identifizierung verwendet habe, ist

  1. Putative ID mit LTRHarvest (basierend auf Struktursequenzmerkmalen)
  2. Klassifizierung nach Homologie zu Repbase und Dfam
  3. Entfernen von Elementen ohne Homologie zu Sequenzen in Repbase oder Dfam.
  4. ol>

    Dies führt zu einer Reihe von LTR-Rs, die in voller Länge sind und den Nachweis erbringen, dass es sich um LTR-Rs handelt.

#5
+3
AntiSocialBehaviourOrder
2017-12-14 12:52:14 UTC
view on stackexchange narkive permalink

+1 für Probleme mit RepBase.

Ich verwende die Anmerkungen von den Hammell Lab-GTFs, die sie mit TEtoolkit veröffentlicht haben. Es ähnelt dem, was Sie beschrieben haben, daher ist dies möglicherweise eine redundante und nutzlose Antwort, aber nach dem Graben, das ich durchgeführt habe, scheinen sie umfassend und gut kuratiert zu sein (zumindest für Drosophila).

#6
+1
jpalmer
2018-06-25 21:59:09 UTC
view on stackexchange narkive permalink

Ich weiß, dass diese Frage etwas alt ist, aber dies ist immer noch ein Problem für viele Forscher, die nicht auf RepBase zugreifen können. Es scheint nun, dass die neueste Version von RepeatMasker für die volle Funktionalität von RepBase abhängig ist, wenn etwas anderes als menschlich maskiert wird (derzeit hat DFAM nur menschliche Modelle). Ich habe kürzlich einen de novo -Repeat-Maskierungsansatz namens REpeat Detector (Rot) entdeckt. Dies könnte eine Lösung für einige sein, die Wiederholungen auf einer Genomassemblierung zur Annotation maskieren möchten. Das Papier ist hier. Ich habe dann auch einen Wrapper um Red geschrieben, um es etwas einfacher zu machen, ein Genom zu maskieren, das Sie hier finden.

Eine der Einschränkungen bei Rot besteht darin, dass die Wiederholungen nicht klassifiziert und daher nur identifiziert werden. Sie müssten einige der anderen oben genannten Tools verwenden, um sie zu klassifizieren.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...