Frage:
Herunterladen eines Referenzgenoms für Bowtie2
EMiller
2017-06-01 03:56:27 UTC
view on stackexchange narkive permalink

Wie lade ich ein Referenzgenom herunter, das ich mit bowtie2 verwenden kann? Speziell HG19. Auf UCSC gibt es viele Dateioptionen.

Zwei antworten:
#1
+11
Konrad Rudolph
2017-06-01 14:38:53 UTC
view on stackexchange narkive permalink

Ich denke, es ist eine Frage der Präferenz, aber ich empfehle die Builds Ensembl . Entscheiden Sie, ob Sie die oberste oder primäre Baugruppe möchten und ob Sie weich maskierte, wiederholungsmaskierte oder nicht maskierte Dateien möchten. Das Namensschema ist sehr einfach; Die Kombinationen werden in der Datei README beschrieben, und alle Dateien befinden sich in einem Verzeichnis.

Zum Beispiel, wenn Sie Wenn Sie die nicht maskierte primäre Assembly benötigen, lautet die herunterzuladende Datei Homo_sapiens.GRCh37.75.dna.primary_assembly.fa.gz .

Wie für GoldenPath / UCSC , es ist nicht erforderlich, separate Chromosomen herunterzuladen und zu verketten (im Gegensatz zu der anderen Antwort); Sie können die gesamte Referenz (auf oberster Ebene) aus dem Verzeichnis bigZips herunterladen. aus dem README:

Dieses Verzeichnis enthält die Zusammenstellung des menschlichen Genoms vom Februar 2009 (hg19, GRCh37 Genome Reference Consortium Human Reference 37 (GCA_000001405.1)), sowie wiederholte Annotationen und GenBank-Sequenzen.

Hier gibt es im Wesentlichen drei Optionen:

  1. chromFa.tar.gz , welches das gesamte Genom in einem Chromosom pro Datei enthält;
  2. chromFaMasked.tar.gz , dasselbe mit Wiederholungen, die durch N maskiert sind;
  3. hg19.2bit ist das gesamte Genom in einer Datei, muss jedoch mit dem Hilfsprogramm twoBitToFa extrahiert werden, das separat heruntergeladen werden muss .
  4. ol>

    In jedem Fall lade ich immer die Referenz herunter und erstelle meinen eigenen Index für die Zuordnung, da dies mir mehr Kontrolle ermöglicht. Möglicherweise braucht nicht jeder so viel Kontrolle, aber das einmalige Erstellen des Index ist sowieso ziemlich schnell.

Ich denke, dies wirft eine weitere Frage auf: "Was ist der Unterschied zwischen verschiedenen Versionen desselben Genoms?". Die Antwort der Frage sollte den Unterschied zwischen DNA- und RNA-seq / funktioneller Genomik-Analyse enthalten. In der DNA / Varianten-Welt werden sich die Menschen im Allgemeinen an die großen Sequenzierungsprojekte halten, die Heng Li als "am besten" ansieht. In der Welt der RNA-seq / funktionellen Genomik ist eine sorgfältige Kuratierung der Genome wichtig, abhängig vom gelesenen Mapper und der Unterstützung der nachgeschalteten Tools (ein größerer Satz von Tools bedeutet einen längeren Schwanz weniger verwendeter Tools mit eigenwilligen Anforderungen).
#2
+9
Manuel
2017-06-01 04:21:54 UTC
view on stackexchange narkive permalink

tl; dr: Verwenden Sie einfach entweder die Downloads auf der Bowtie2-Homepage oder die Illumina iGenomes. Oder dekomprimieren und verketten Sie einfach die FASTA-Dateien auf UCSC goldenpath und erstellen Sie dann den Index.

Eine etwas längere Antwort:

Es gibt zwei Komponenten für " Genom für einen Read Mapper "wie Bowtie oder BWA.

Zunächst müssen Sie die tatsächliche Sequenz auswählen (Genomfreigabe wie GRCh37 / hg19 oder GRCh38 / hg38). Es gibt Patch-Releases wie GRCh37.p3, in denen einige Basen ausgetauscht werden können, und je nach Release werden möglicherweise einige "nicht zugeordnete" Loci-Contigs hinzugefügt, aber im Allgemeinen entspricht GRCh37.p1 ungefähr GRCh37.p2. Normalerweise haben sich die Benutzer für jeden Lesevorgang auf eine bestimmte Patch-Version geeinigt und verwenden diese für die Lesezuordnung.

Im Allgemeinen gibt es das UCSC-Aroma hg19 / hg38 usw. und das NCBI / GRC-Aroma GRCh37, GRCh38 usw. (ähnlich mit der Maus). UCSC hat außer der Genomfreigabe keine Versionierung und aktualisiert (nach meinem besten Wissen) die Genomsequenz nach der Freigabe einer hg19-FASTA-Datei nicht.

Zweitens müssen Sie die Indexdateien für jedes Genom erstellen. Abhängig von dem von Ihnen verwendeten Read Mapper benötigen Sie möglicherweise die ursprünglichen FASTA-Dateien für die Ausrichtung oder nicht. Für Bowtie und Bowtie 2 benötigen Sie nach dem Erstellen des Index nicht die ursprünglichen FASTA-Dateien, da Bowtie 1/2 die Sequenz "on the fly" aus den Indexdateien rekonstruieren kann.

HTH

Ich weiß nicht, wie ich es geschafft habe, den Download auf der Bowtie-Homepage zu verpassen. Hoffe das hilft jemand anderem!


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...