Frage:
Zusammenführen von Sequenzierungsdaten für ChIP-seq-Experimente
olga
2017-06-03 17:42:58 UTC
view on stackexchange narkive permalink

Ich muss Sequenzierungsdaten aus verschiedenen Sequenzierungsläufen zusammenführen, jedoch für dieselbe ChiP-seq-Bibliothek (HiSeq 2000).

Gibt es potenzielle Vor- oder Nachteile beim Zusammenführen von Dateien in der Phase .fastq oder .BAM (Ausrichtung mit Bowite / 1.1.2)?

Drei antworten:
#1
+7
Konrad Rudolph
2017-06-03 17:48:05 UTC
view on stackexchange narkive permalink

Ich denke nicht, dass es wichtig ist. Beide sind einfach zusammenzuführen (BAM über samtools merge und (gzipped) FASTQ über cat ), und keine der beiden Methoden weist spezifische Nachteile auf, es sei denn, Ihre FASTQ-Dateien sind aus irgendeinem Grund sortiert (Dies sollte jedoch im Allgemeinen nicht der Fall sein.)

Ein Vorteil der Trennung der FASTQ-Dateien besteht darin, dass die Zuordnung des Zuordnungsschritts etwas einfacher ist: Führen Sie den Mapper einfach parallel für die einzelnen FASTQ-Dateien aus. Obwohl bowtie eine Option ( -p ) hat, ist der Durchsatz davon etwas schlechter als das Ausführen der Zuordnung für geteilte Dateien.

#2
+3
Sarah Carl
2017-06-06 13:19:38 UTC
view on stackexchange narkive permalink

Für ChIP-seq sollte es eigentlich keine Rolle spielen. Beachten Sie jedoch, dass samtools merge standardmäßig Lesegruppeninformationen (das Feld @RG im Header) aus jeder Eingabedatei enthält. Dies kann für einige nachgelagerte Analysen (z. B. für den GATK HaplotypeCaller) ein Problem darstellen, wenn die zusammengeführten Daten als Teil derselben Stichprobe betrachtet werden sollen. Sie können dieses Verhalten mit der Option -c ändern.

Ich glaube nicht, dass man für eine ChIP-Seq "@RG" -Informationen benötigt. Ich meine, es ist sehr unwahrscheinlich, dass jemand eine Variante durchführen möchte, die mit ChIP-Seq anruft. Auf jeden Fall wäre es kaum von Bedeutung. Ich würde hier einfach nicht über das "@RG" sprechen, da die Leute verwirrt sein könnten.
Gutes Argument. Aber da olga nach Vor- oder Nachteilen gefragt hat, dachte ich, dass es erwähnenswert wäre. Dies kann in Zukunft oder für andere Benutzer nützlich sein, wenn Dateien für andere Anwendungen als ChIP-seq zusammengeführt werden, da "samtools merge" weit verbreitet ist.
#3
+2
ewels
2017-06-06 22:40:14 UTC
view on stackexchange narkive permalink

Stimmen Sie mit den anderen überein, dass es nicht wirklich wichtig ist. Beachten Sie jedoch Folgendes: Wenn Sie Ihre BAM-Dateien deduplizieren (dies sollten Sie wahrscheinlich für ChIP-seq-Daten tun), stellen Sie sicher, dass Sie dies nach dem Zusammenführen tun .. :)

Beachten Sie, dass Sie, wenn Sie anstelle einer Bibliothek mehrere technische Replikate haben (dh mehrere Bibliotheken aus demselben Beispiel), die Ausrichtung für jedes technische Replikat separat durchführen, dann deduplizieren und dann zusammenführen sollten. Auf diese Weise können Sie eindeutige Fragmente aus jeder Bibliothek behalten, die möglicherweise wie PCR-Duplikate aussehen (da sie demselben Ort zugeordnet sind), aber tatsächlich eindeutig sind.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...