Frage:
Ist es ratsam, RepeatMasker für Prokaryoten zu verwenden?
Titouan Bougouin-Laessle
2017-08-24 18:42:57 UTC
view on stackexchange narkive permalink

Ich suche nach einer Möglichkeit, Regionen mit geringer Komplexität und andere Wiederholungen im Genom von Escherichia coli zu identifizieren. Ich fand heraus, dass RepeatMasker zum Beispiel beim Zeichnen von Genomen von Prokaryoten verwendet werden kann ( E. coli Beispiel). RepeatMasker arbeitet jedoch mit einem begrenzten Datensatz von Arten, von denen keine Prokaryoten sind. Wenn beim Ausführen von RepeatMasker keine Art angegeben ist, werden diese standardmäßig mit den Daten von Homo Sapiens verglichen.

Dies scheint eher unzureichend zu sein, aber die relevanteste Alternative, PRAP, erfordert ein "totes" Tool (VisCoSe, von Michael Spitzer).

  1. Ist es immer noch ratsam, RepeatMasker für Escherichia coli zu verwenden?
  2. Wenn ja, welche Einstellungen würden die Relevanz maximieren?
  3. ol>
`RepeatMasker` ist nicht für die Verwendung mit prokaryotischen Genomen konzipiert. Trotzdem wird eine Kontaminationsprüfung für * E durchgeführt. coli *, damit Sie mit dem Flag "-is_only" herumspielen können, um bakterielle Wiederholungen zu erkennen. Wahrscheinlich ist es jedoch besser, ein alternatives Tool oder eine Wiederholungsbibliothek zu finden
"Wiederholungen" haben unterschiedliche Bedeutungen. Welche Arten von Wiederholungen zu maskieren sind, hängt stark von den nachgeschalteten Analysen ab. Tatsächlich wird häufig von einer Wiederholungsmaskierung abgeraten. Wenn Sie erklären, warum Sie Wiederholungen maskieren möchten, erhalten Sie eine genauere Antwort.
@user172818 Tatsächlich bin ich nicht daran interessiert, zu maskieren, sondern wirklich jede Art von Wiederholungen zu finden, von Regionen mit geringer Komplexität bis zu kleinen Wiederholungen, wie sie mit "RepeatMasker" erhalten werden können. Ich würde diese Wiederholungen dann als (Art von) an verwenden erklärende Variable.
Zwei antworten:
mgalardini
2017-08-24 18:53:41 UTC
view on stackexchange narkive permalink

Wenn ich Ihre Frage richtig verstanden habe, möchten Sie diese Regionen in einem (FASTA?) - Genom maskieren. Ich denke, Sie könnten diese Regionen mit mummer identifizieren und mit bedtools maskieren.

  # Genom gegen sich selbst ausrichtennucmer --maxmatch --nosimplify Genom.Fasta Genom.Fasta # Wiederholungen auswählen und die Korrelate in Bettformate konvertieren. Show-Koordinaten -r -T out.delta -H | awk '{if ($ 1! = $ 3 && $ 2! = $ 4) print $ 0}' | awk '{print $ 8 "\ t" $ 1 "\ t" $ 2}' > repeats.bed # maskiere diese Basen mit bedtoolsbedtools maskfasta -fi Genom.fasta -bed repeats.bed -fo masked.fasta  ​​code> 

Sehen Sie sich die Optionen nucmer und bedtools maskfasta an, um Ihre Analyse zu optimieren.

Dieser Ansatz mag funktionieren, aber es scheint eine ziemlich unorthodoxe Methode zu sein, Wiederholungen zu maskieren. Haben Sie diesen Ansatz verwendet oder gesehen, wie Menschen ihn für bakterielle Genome verwenden?
Ich habe es gemäß den Ratschlägen im Mummer-Handbuch verwendet: http://mummer.sourceforge.net/manual/#identifyingrepeats
Danke, du hast es für Prokaryoten benutzt? Sie sagen in den Dokumenten, dass es nicht wirklich dafür ausgelegt ist und nur eine begrenzte Anzahl von Wiederholungstypen identifiziert, also nahm ich an, dass dies nicht wirklich empfohlen wurde?
Ja, ich habe es bei E. coli K-12 angewendet und dabei 1324 Wiederholungen gefunden. Ich habe nie andere Methoden ausprobiert, daher bin ich mir nicht sicher, wie es mit diesen verglichen wird. Es wäre definitiv interessant. Ich würde nicht sagen, dass die Autoren von mummer Sie davon abhalten, Nucmer zu verwenden, um Wiederholungen zu finden, nur dass es nicht speziell für diesen Zweck gemacht wurde.
aechchiki
2017-08-30 03:20:51 UTC
view on stackexchange narkive permalink

Aus Ihrem Kommentar geht hervor, dass Maskierungsbereiche nicht Ihre Priorität sind, sondern Sie sie lieber finden möchten (korrigieren Sie mich, wenn ich falsch liege):

nicht an Maskierung interessiert, aber wirklich zu finden Jede Art von Wiederholungen, von Regionen mit geringer Komplexität bis zu kleinen Wiederholungen

Um diese Regionen zu finden, können Sie RepeatFinder ausprobieren. Aus ihrem -Papier geht hervor, dass es auch für Bakteriengenome geeignet ist. Es scheint auch schneller zu sein, da es auf der Datenstruktur des Suffixbaums basiert, anstatt mit einem String-Matching-Algorithmus zu arbeiten (wie in RepeatMasker).



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...