Frage:
Haben Sie DNA-Motive von 6-12 bp Länge und versuchen Sie, Erhaltungswerte zu erhalten
Eric Brenner
2017-05-31 02:18:08 UTC
view on stackexchange narkive permalink

Ich habe ungefähr 200 kurze Nukleotidmotive (6-12 bp lang) aus dem menschlichen Genom und ich versuche zu sehen, wie konserviert sie bei Wirbeltieren sind.

Ich dachte, ich müsste für jedes Motiv eine Bettdatei erstellen, in der alle Vorkommen im menschlichen Genom aufgeführt sind. Von dort aus konnte ich die Betten einer Bigwig-Datei mit PhastCons -Punkten zuordnen (im Wesentlichen umgekehrt wie bei der PhastCons-Software). Klingt das nach dem besten Ansatz?

Ich stecke beim Übergang von Motiven zu Bettdateien fest. Ich habe versucht, mit BLAST alle Vorkommen von Motiven zu finden, aber ihre kurze Länge verursacht Probleme.
Ich habe versucht, mit dem E-Wert-Schwellenwert, der Wortgröße und den Filterparametern herumzuspielen, aber ich verstehe es immer noch nicht Treffer.

Gibt es eine Problemumgehung für dieses Problem oder sollte ich einfach meinen gesamten Ansatz überdenken?

Ich habe etwas Ähnliches gemacht, aber mit einer Liste gut definierter n-mers anstelle von "Motiven", alle mit dem gleichen Wert von n. Falls dies hilfreich sein kann, lautet der Code, den ich zum Erstellen der Bettdatei verwendet habe, folgender: https://bitbucket.org/blaiseli/conservation_mirna_targets/src/20b7a0894b957e69912f637ef2d0493779036029/trie.py?at=master&fileviewer=file- defaultDer Code ist möglicherweise nicht sehr speichereffizient.
Drei antworten:
#1
+7
BaCh
2017-05-31 02:53:31 UTC
view on stackexchange narkive permalink

Falls Sie nur ACGT in Ihren Motiven haben

Die kurzen Motive lassen es so klingen, als ob Sie nach einem Kmer-Zähler suchen. Sie können wählen, ob Sie vorhandene Software verwenden oder Ihre eigene erstellen möchten.

  1. Die Verwendung vorhandener Software ist möglicherweise der einfachste Weg. Ein älterer Beitrag aus dem Jahr 2014 gibt Ihnen wahrscheinlich eine erste Vorstellung davon, was da draußen ist: http://homolog.us/blogs/blog/2014/04/07/kmer-counting-a-2014-recap/. Beachten Sie, dass einige der dort erwähnten Algorithmen Nachfolger haben. Es lohnt sich also, ein wenig herumzuwühlen. Die kleine Kmer-Größe macht die meisten von ihnen für Ihre Bedürfnisse nutzbar.
  2. Da die maximale Größe Ihrer Kmers vergleichsweise klein ist (12 nt benötigen 24 Bit, dh maximal 16,7 Millionen Einträge in Ihrer Kmer-Tabelle). Sie sollten in der Lage sein, Ihre eigenen Kmer-Zählungen in jeder Sprache, die Sie mögen, und auf jedem heutigen Computer zu erstellen. Der Pseudocode-Abschnitt im Eintrag Wikipedia für kmers gibt Ihnen erste Hinweise dazu. Könnte etwas mehr Arbeit sein, aber je nach Ihren Anforderungen möglicherweise flexibler.
  3. ol>

    Falls Ihre Motive IUPAC-Basen (N, W usw.) enthalten

    Ich kenne keine bereits vorhandene Software, die das tut, was Sie benötigen. Ich könnte mir vorstellen, dass die kurzen Motive die Verwendung von regulären Ausdrücken für diese Art der Suche möglich machen, aber ich kann mich irren. Das Testen sollte in einem einfachen Skript einfach sein, da alle wichtigen Programmiersprachen Module oder Bibliotheken für REs haben. Selbst wenn die Ausführung Ihres Datensatzes einige Stunden dauern sollte, ist dies für eine einmalige Berechnung ausreichend.

#2
+3
rightskewed
2017-05-31 03:46:53 UTC
view on stackexchange narkive permalink

Um Motive in einem Genom (oder einer Datenbank) zu scannen, würde ich FIMO verwenden, das Ihnen die genauen Positionen dieser Motive in Ihrem Genom angibt.

Sobald Sie die Positionen haben können Sie eine phastCons bigiwig von UCSC verwenden, um die basewise Conservation Scores zu berechnen. Beachten Sie jedoch, dass die phastCons -Werte über Fenster hinweg geglättet werden und möglicherweise nicht die beste Metrik ist, wenn Sie versuchen, die Erhaltungsniveaus an Ihren Motivübereinstimmungsstellen mit den sie flankierenden Sequenzen zu vergleichen p>

Ich habe vor einiger Zeit ein -Paket geschrieben, um dies zu tun, einschließlich der De-novo-Motiventdeckung. Es könnte jedoch ein Overkill für Ihren Anwendungsfall sein.

Ich habe FIMO schon einmal verwendet, aber zum Vergleichen von Motiven mit PWMs (von JASPAR). Könnte eine dumme Frage sein, aber ist es ziemlich einfach, sie mit einem Genom zu vergleichen, anstatt mit einer Datenbank von PWMs?
@EricBrenner Sie können einfach eine Sequenzdatei in die Webversion hochladen.
#3
+1
Alex Reynolds
2018-03-07 06:10:38 UTC
view on stackexchange narkive permalink

In Bezug auf Transkriptionsfaktor-Bindungsstellen haben wir in unseren Veröffentlichungen anstelle von geglätteten phastCons-Scores pro Base phyloP -Konservierungsdaten verwendet.

Wir verwenden BEDOPS Bedmap , um Scores für ein bestimmtes Motivmodell über mehrere gepolsterte Bindungsstellen (BED-formatiert) abzubilden. Die PhyloP-Scores sind WIG-Dateien, die von UCSC Goldenpath erhalten und über wig2bed in BED konvertiert wurden.

Die resultierende Matrix aus Bindungsstellenintervallen und deren Pro-Base-Scores kann in eine Rangfolge umgewandelt werden Heatmap oder aggregiert, um die durchschnittliche Erhaltung pro Basis für ein Motivmodell zu bestimmen.

Während TF-Bindungsstellen von Natur aus einen hohen Informationsgehalt und damit eine hohe Konservierung aufweisen, können Matrizen durch Score-Maps der ChIP-seq- oder DNaseI-seq-Tag-Dichte weiter sortiert werden.

Dies kann beim Filtern nach interessanten rauscharmen Mustern mit hohem Signal helfen und ist nützlich, wenn die Matrix mit Fenstern versehen ist und das Fenster Bereiche mit geringer Information mit einigen Resten mit hoher Information außerhalb des Hauptmotivs enthält. wie zum Beispiel bei CTCF.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...