Frage:
Wie korreliere ich zwei null aufgeblasene bedgraphartige Signale?
Ian Sudbery
2017-05-17 21:52:04 UTC
view on stackexchange narkive permalink

Diese Frage bezieht sich auf iCLIP, kann aber genauso gut ChIP-seq- oder ATAC-seq- oder Mutationsfrequenzen sein.

Ich habe iCLIP-Lesezahlen im gesamten Transkriptom und möchte wissen, ob die Signale korreliert sind - das heißt, wenn eines von ihnen hoch ist, ist das andere wahrscheinlich hoch.

Wenn wir mit solchen Daten umgehen (z. B. iCLIP-Daten), wissen wir oft, dass die Daten im Allgemeinen spärlich sind - das heißt, an den meisten Positionen sind beide Signale Null und dies ist korrekt und auch Null-aufgeblasen - das sind viele Grundlagen, die "haben" sollten Einem Signal fehlen diese Daten. Die Berechnung der Spearman-Korrelation ergibt also wahrscheinlich einen künstlich niedrigen Wert.

Wie kann die Assoziation beurteilt werden? Ich sollte hinzufügen, dass das Ziel darin besteht, die Assoziation von Bindungsmustern innerhalb von Genen und nicht (oder auch) zwischen Genen zu bewerten.

Dinge, an die ich gedacht habe:

  • Wenden Sie eine Art Glättung auf die Daten an (z. B. einen gleitenden Mittelwert). Entfernen Sie alle Basen mit 0 in beiden Proben. Berechnen Sie die Speermänner.
  • Berechnen Sie den durchschnittlichen paarweisen Abstand zwischen jedem Lesevorgang in Probe 1 und jedem Lesevorgang in Probe 2. Vergleichen Sie dies mit Daten, bei denen die Lesevorgänge innerhalb von Genen randomisiert wurden.

Im ersten Fall scheint es falsch, alle Basen mit 0 in beiden Beispielen zu entfernen. Wenn jedoch 99,99% aller Basen in beiden Proben Null haben, scheint dies für Spearman notwendig zu sein.

Im zweiten Fall scheint das Ergebnis nicht intuitiv zu interpretieren zu sein. Und auch dies zu berechnen wäre massiv rechenintensiv.

Vier antworten:
#1
+4
Devon Ryan
2017-05-17 23:04:17 UTC
view on stackexchange narkive permalink

Ehrlich gesagt würde ich nur multiBigwigSummary und dann plotCorrelation von deepTools verwenden, aber ich bin ein bisschen voreingenommen. Dort wäre die Idee, jedes Gen als Einheit zu betrachten (Sie könnten stattdessen Bins verwenden, aber ich denke nicht, dass dies so gut tun würde, was Sie wollen), indem Sie den Tools eine BED- oder GTF-Dateieingabe geben. Es würde dann das durchschnittliche Signal in jedem Gen / Transkript berechnen und Sie könnten die Korrelation Ihres Spearman durchführen. Features mit 0 in allen Beispielen könnten optional entfernt werden ( plotCorrelation --skipZeros ).

Während Sie sicherlich die gesamten 9 Yards gehen und Vergleiche pro Basis verwenden könnten, scheint dies ein Problem zu sein etwas übertrieben und ich vermute, dass es nicht wirklich mehr Informationen liefert (besonders wenn man den zusätzlichen Zeitaufwand berücksichtigt).

Siehe meine Klarstellung. - Ich möchte die räumlichen Muster innerhalb von Genen betrachten, nicht zwischen ihnen.
@IanSudbery Ah, gut zu wissen, meine Antwort ist dann nicht zutreffend.
#2
+3
rightskewed
2017-05-17 23:08:39 UTC
view on stackexchange narkive permalink

Anstatt auf der Basisebene zu arbeiten, könnten Sie wahrscheinlich auch an der Anzahl der Genebenen arbeiten. Kendalls Tau, eine ordinale Assoziationsmetrik, kann dann als geeignetes Korrelationsmaß verwendet werden.

Wenn $ X $ und $ Y $ Ihre iCLIP-Replikate sind, steht $ i $ für ein Gen. Index und $ (x_i, y_i) $ stellen die Anzahl der RBP-Bindungsstellen in $ X $ bzw. $ Y $ für das $ i ^ {th} $ -Gen dar. Kendalls Tau ist definiert als:

$ $ \ frac {\ text {# (übereinstimmende Paare)} - \ text {# (nicht übereinstimmende Paare)}} {n (n-1) / 2} $$

Wobei zwei beliebige Paare $ (x_i , y_i) $ und $ (x_j, y_j) $ stimmen überein, wenn:

  • $ x_i > x_j $ UND $ y_i > y_j $

ODER

  • $ x_i < x_j $ UND $ y_i < y_j $

Entsprechend stimmen sie nicht überein, wenn:

  • $ x_i < x_j $ UND $ y_i > y_j $

ODER

  • $ x_i > x_j $ UND $ y_i < y_j $
Ich bin mir nicht sicher, warum das Tex-Rendering deaktiviert ist.
Siehe meine Klarstellung: Ich interessiere mich eher für die Muster innerhalb der Gene als zwischen ihnen. Kann Tau besser mit Daten umgehen, bei denen viele Beobachtungen Null sind?
Wenn Sie daran interessiert sind, das Muster innerhalb von Genen zu untersuchen, fungiert Ihre zweite Probe als Replikat? Ich bin mir nicht sicher, ob ich vollständig verstehe, was "innerhalb von Genen" hier bedeuten würde.
Nein, ich versuche festzustellen, ob zwei Proteine ​​innerhalb der Genbindungsmuster ähnlich sind.
Die Mathjax-Unterstützung wurde nicht aktiviert. Es ist jetzt so, dass Ihre Antwort korrekt wiedergegeben wird.
#3
+3
CloudyGloudy
2017-05-18 01:18:09 UTC
view on stackexchange narkive permalink

Es hängt davon ab, ob Sie die Peakintensitäten als binär (Vergleich von Vorhandensein / Nichtvorhandensein von Peaks in den Sätzen) oder kontinuierlich (Vergleich der relativen Größen der Peaks) behandeln möchten.

Binär

Für den Anfang kann ein einfacher binärer Vergleich angebracht sein. Sie können einen Peak Caller Ihrer Wahl verwenden, um Peaks in jeder Probe nach Ihren gewünschten Kriterien zu identifizieren. Anschließend können Sie eine Ähnlichkeitsmetrik wie den Jaccard-Index verwenden, um den Grad der Übereinstimmung zwischen den Peaks in den beiden Stichproben zu quantifizieren.

Ein potenzielles Hindernis besteht darin, die Grenzen Ihrer zu definieren Spitzen werden nicht ganz einfach sein. Beispielsweise kann ein Peak in einer Probe zwei überlappende Peaks in der anderen Probe aufweisen, einen an jedem Ende. Eine grobe Lösung hierfür besteht darin, das Genom in Bins zu unterteilen (möglicherweise etwa 100-1000 bp, abhängig von Ihrer gewünschten Auflösung). Sie können einen Peak als in einem Bin vorhanden behandeln, wenn mehr als die Hälfte des Peaks im Bin liegt. Auf diese Weise können Behälter in einer Probe direkt mit den entsprechenden Behältern in der anderen Probe verglichen werden. Offensichtlich ist dies nicht der einzige Weg, dies zu tun. Es gibt auch andere geeignete Methoden.

Kontinuierlich

Wenn Sie die Spitzenintensitäten als kontinuierlich behandeln möchten, können Sie eine ähnliche Binning-Methode anwenden. Punktzahl "eines Behälters ist die durchschnittliche Spitzenintensität an Positionen innerhalb dieses Behälters. Sie könnten dann alle Behälter ohne Peaks oder nur Peaks mit geringer Intensität im gesamten Genom wegwerfen. Dann könnten Sie die Spearman-Korrelation für die verbleibenden Fächer berechnen. Ich vermute, es wird schwieriger sein, eine starke Korrelation für kontinuierliche Intensitäten zu finden, da die experimentelle Variabilität inhärent vorhanden ist.

Wenn nach Befolgen dieser Schritte die Spearman-Korrelation immer noch "künstlich" ist niedrig ", wie Sie vorgeschlagen haben, ist dies wahrscheinlich ein Problem mit den zugrunde liegenden Daten, nicht mit der Gesamtanalyse. Vielleicht stimmen Ihre beiden Datensätze tatsächlich nicht so gut überein.

Ich war besorgt über künstlich niedrige Werte, als die meisten Beobachtungen 0 waren. Ausgenommen Fälle, in denen Beobachtungen in beiden Signalen 0 sind, fühlten sich einfach nicht richtig an.
@IanSudbery Ich verstehe. Sie interessieren sich also auch dafür, inwieweit die "Nicht-Peaks" miteinander übereinstimmen. Eine Möglichkeit besteht dann darin, die Fächer, in denen beide Werte Null sind, nicht wegzuwerfen und die Spearman-Korrelation zu melden. Da Sie jedoch sagten, dass die Peaks ziemlich spärlich sind, wird es aufgrund Ihrer Nullwerte schwierig sein, das Ausmaß der Korrelation zwischen den wahren Positiven zu erkennen. Ich bin damit einverstanden, dass es nicht "richtig" ist, die Nullwerte in Spearman-Korrelationswerten auszuschließen, aber wenn Sie stattdessen eine Metrik für festgelegte Schnittpunkte (wie den Jaccard-Index) verwenden, wäre es in Ordnung, Nullen auszuschließen.
Ein Blick auf die Kreuzung löst das Problem der Sparsity, aber nicht das Problem der Null-Inflation: Signale von ähnlich aussehenden Spuren sind in der Regel nahe beieinander, aber nicht direkt übereinander. Ehrlich gesagt fange ich an zu denken, dass Ihr zweiter Vorschlag der beste ist, den es gibt.
Das stimmt, aber wenn Sie den Binning-Ansatz verwenden, um Schnittpunkte zu definieren, anstatt nach einer strengen Überlappung zu suchen, könnte dies hilfreich sein. (d. h. es zählt als Schnittpunkt, wenn derselbe Bin Spitzen in beiden Spuren enthält, selbst wenn sich die Spitzen selbst nicht direkt überlappen)
#4
+2
Sasha Favorov
2017-05-31 00:18:23 UTC
view on stackexchange narkive permalink

Es ist eine meiner Lieblingsgeschichten.

Werfen Sie einen Blick auf die StereoGene-Software, die für die Korrelation von Genomspuren in einem Preprint beschrieben ist.

Sie können dies auch Führen Sie MACS oder einen anderen Spitzenaufrufer aus und schätzen Sie die Korrelation zweier Intervallmengen mit dem Paket GenomtriCorr.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...