Frage:
Wann sind die Genomregionen auf der schwarzen Liste in ChIP-seq-Datenanalysen zu berücksichtigen?
olga
2017-06-05 22:15:40 UTC
view on stackexchange narkive permalink

Wir haben in der Gruppe gehört, dass es wichtig ist, Artefaktregionen zu verfolgen und zu filtern, wenn Daten aus Experimenten zur funktionellen Genomik, insbesondere ChIP-seq, analysiert werden.

Hier haben wir Pipelines gesehen, die die ENCODE-Spuren i) vor Kreuzkorrelations-QCs, ii) nach Kreuzkorrelations-QC, aber vor Peak-Calling und iii) nach Peak-Calling entfernen.

Wir haben festgestellt, dass das Entfernen der Spuren die Kreuzkorrelation und die spitzenunabhängigen QCs nicht signifikant beeinflusst. Wir sind uns jedoch nicht sicher, ob Peak Calling auf den gefilterten Spuren durchgeführt werden soll oder nicht?

Einer antworten:
#1
+9
Devon Ryan
2017-06-05 22:41:43 UTC
view on stackexchange narkive permalink

Nebenbei: Kreuzkorrelation ist weitgehend bedeutungslos, unabhängig davon, was einige der ENCODE-Leute argumentieren könnten. Wenn wir unsere DEEP-Samples verarbeiten, sehen wir uns diesen Wert nicht einmal an.

Wenn Sie SPP / phantomPeakQual für die Kreuzkorrelation verwenden, beachten Sie, dass die höchsten Peaks bereits zuvor aus Ihrem Datensatz entfernt wurden Berechnung der Kreuzkorrelation (tatsächlich können auch die meisten tatsächlichen Peaks entfernt werden, was einen weiter fragen lässt, was es Ihnen tatsächlich sagt). Ich weiß nicht, dass dies tatsächlich irgendwo dokumentiert ist. Es ist mir aufgefallen, als ich den Code durchgesehen habe, während ich darüber nachgedacht habe, ob ich ihn in deepTools implementieren soll. Aber zumindest werden diese Regionen bereits ignoriert :)

Im Allgemeinen ist es am bequemsten, nur Peaks zu entfernen, die sich mit Regionen auf der schwarzen Liste überlappen. In einer idealen Welt würden Sie die Lesevorgänge auf der schwarzen Liste vor dem Spitzenanruf herausfiltern, aber (1) dies ist wirklich unpraktisch (mehr Zeit und Festplatte erforderlich) und (2) ich habe noch nie einen nennenswerten Anstieg der Spitzenanrufleistung gesehen. Zumindest theoretisch sollten Sie die Empfindlichkeit in der Nähe von Regionen auf der schwarzen Liste verlieren, wenn Sie keine Lesevorgänge entfernen, die sich auf der schwarzen Liste überschneiden, aber Sie müssen sich fragen, ob Sie solchen Spitzenwerten trotzdem vertrauen möchten. Für andere QC-Schritte stellen wir zumindest mit deepTools mit jedem Tool einen Parameter bereit, um eine BED-Datei mit zu überspringenden Regionen auf der schwarzen Liste anzugeben.

Abgesehen davon gibt es in neueren Genom-Builds viel weniger Regionen auf der schwarzen Liste ( Zumindest GRCh38 und GRCm38), daher ist dies bei ihnen im Allgemeinen weniger ein Problem.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...