Frage:
Was ist der Unterschied zwischen den Dateiformaten FASTA, FASTQ und SAM?
kenorb
2017-05-16 23:37:28 UTC
view on stackexchange narkive permalink

Ich möchte die Unterschiede zwischen drei gängigen Formaten wie FASTA, FASTQ und SAM kennenlernen. Wie unterscheiden sie sich? Gibt es Vorteile bei der Verwendung untereinander?

Aufgrund von Wikipedia-Seiten kann ich die Unterschiede zwischen ihnen nicht erkennen.

Vier antworten:
#1
+42
Konrad Rudolph
2017-06-02 17:16:25 UTC
view on stackexchange narkive permalink

Beginnen wir mit dem, was sie gemeinsam haben: In allen drei Formaten werden

  1. Sequenzdaten und
  2. Sequenzmetadaten gespeichert.
  3. ol>

    Darüber hinaus sind alle drei Formate textbasiert.

    Darüber hinaus sind jedoch alle drei Formate unterschiedlich und dienen unterschiedlichen Zwecken.

    Beginnen wir mit dem einfachsten Format:

    FASTA

    FASTA speichert eine variable Anzahl von Sequenzdatensätzen und für jeden Datensatz die Sequenz selbst sowie eine Sequenz-ID. Jeder Datensatz beginnt mit einer Kopfzeile, deren erstes Zeichen > ist, gefolgt von der Sequenz-ID. Die nächsten Zeilen eines Datensatzes enthalten die tatsächliche Sequenz.

    Der Wikipedia-Artikel enthält mehrere Beispiele für Peptidsequenzen. Da FASTQ und SAM jedoch ausschließlich (?) Für Nukleotidsequenzen verwendet werden, hier ist ein Nukleotid-Beispiel:

      >Mus_musculus_tRNA-AlaAGC-1-1 (chr13.trna34-AlaAGC) GGGGGTGTAGCTCAGTGGTAGAGCGCGTGCTTAGCATGCACGAGGcCCTGGGTTCGATCCCCAGCACCTCCA>Mus_musculus_tRNA-AlaAGC-10-1 (chr13.trna457-AlaAGC) GGGGGATTAGCTCAAATGGTAGAGCGCTCGCTTAGCATGCAAGAGGtAGTGGGATCGATGCCCACATCCTCCA  

    Die ID kann in einem beliebigen Format vorliegen, obwohl mehrere Konventionen existieren.

    Im Zusammenhang mit Nukleotidsequenzen wird FASTA hauptsächlich zum Speichern verwendet Vergleichsdaten; das heißt, Daten, die aus einer kuratierten Datenbank extrahiert wurden; Das Obige wurde aus GtRNAdb (einer Datenbank von tRNA-Sequenzen) übernommen.

    FASTQ

    FASTQ wurde entwickelt, um ein spezifisches Problem zu lösen, das während der Sequenzierung auftritt: Aufgrund von Wie verschiedene Sequenzierungstechnologien funktionieren, variiert das Vertrauen in jeden Basisaufruf (dh die geschätzte Wahrscheinlichkeit, ein bestimmtes Nukleotid korrekt identifiziert zu haben). Dies wird im Phred-Qualitätsfaktor ausgedrückt. FASTA hatte keine standardisierte Methode, dies zu codieren. Im Gegensatz dazu enthält ein FASTQ-Datensatz eine Folge von Qualitätsbewertungen für jedes Nukleotid.

    Ein FASTQ-Datensatz hat das folgende Format:

    1. Eine Zeile, die mit @ beginnt und die Sequenz-ID enthält.
    2. Eine oder mehrere Zeilen, die die Sequenz enthalten.
    3. Eine neue Zeile, die mit dem beginnt Zeichen + und entweder leer sein oder die Sequenz-ID wiederholen.
    4. Eine oder mehrere Zeilen, die die Qualitätsbewertungen enthalten.
    5. ol>

      Hier ist eine Beispiel einer fastq Datei mit zwei Datensätze:

        @ 071112_SLXA-EAS1_s_7: 5: 1: 817: 345GGGTGATGGCCGCTGCCGATGGCGTCAAATCCCACC + IIIIIIIIIIIIIIIIIIIIIIIIIIIIII9IG9IC @ 071112_SLXA-EAS1_s_7: 5: 1: 801: 338GTTCAGGGATACGACGTTTGTATTTTAAGAATCTGA + IIIIIIIIIIIIIIIIIIIIIIIIIIIIIIII6IBI  

      FASTQ-Dateien werden hauptsächlich zum Speichern von kurz gelesenen Daten aus Sequenzierungsexperimenten mit hohem Durchsatz verwendet. Die Sequenz- und Qualitätsbewertungen werden normalerweise in jeweils einer Zeile zusammengefasst, und tatsächlich gehen viele Tools davon aus, dass jeder Datensatz in einer FASTQ-Datei genau vier Zeilen lang ist, obwohl dies nicht garantiert ist.

      Wie bei FASTA Das Format der Sequenz-ID ist nicht standardisiert, aber verschiedene Hersteller von FASTQ verwenden feste Notationen, die strengen Konventionen folgen.

      SAM

      SAM-Dateien sind so komplex, dass eine vollständige Beschreibung [PDF] sup> 15 Seiten umfasst. Hier ist also die Kurzversion.

      Der ursprüngliche Zweck von SAM-Dateien besteht darin, Zuordnungsinformationen für Sequenzen aus der Hochdurchsatzsequenzierung zu speichern. Infolgedessen muss ein SAM-Datensatz mehr als nur die Sequenz und ihre Qualität speichern, sondern auch Informationen darüber, wo und wie eine Sequenz der Referenz zugeordnet wird.

      Im Gegensatz zu den vorherigen Formaten ist SAM tab-basiert und jeder Datensatz, der aus 11 oder 12 Feldern besteht, füllt genau eine Zeile. Hier ist ein Beispiel (Registerkarten werden durch Abstände mit fester Breite ersetzt):

        r001 99 chr1 7 30 17M = 37 39 TTAGATAAAGGATACTG IIIIIIIIIIIIIIIr002 0 chrX 9 30 3S6M1P1I4M * 0 0 AAAAGATAAGGATA IIIIIIIIII6IBI NM: i: 1  

      Eine Beschreibung der einzelnen Felder finden Sie in der Dokumentation. Das relevante Bit ist folgendes: SAM kann genau die gleichen Informationen wie FASTQ sowie, wie erwähnt, die Zuordnungsinformationen ausdrücken. SAM wird jedoch auch zum Speichern von Lesedaten ohne Zuordnungsinformationen verwendet.

      Zusätzlich zu Sequenzdatensätzen können SAM-Dateien auch einen Header enthalten, der speichert Informationen über die Referenz, der die Sequenzen zugeordnet wurden, und das zum Erstellen der SAM-Datei verwendete Tool. Header-Informationen stehen vor den Sequenzdatensätzen und bestehen aus Zeilen, die mit @ beginnen.

      SAM selbst wird fast nie als Speicherformat verwendet. Stattdessen werden Dateien im BAM-Format gespeichert, bei dem es sich um eine kompakte binäre Darstellung von SAM handelt. Es speichert dieselben Informationen nur effizienter und ermöglicht in Verbindung mit einem Suchindex das schnelle Abrufen einzelner Datensätze aus der Mitte der Datei (= schneller Direktzugriff). . BAM-Dateien sind auch viel kompakter als komprimierte FASTQ- oder FASTA-Dateien.


      Das Obige impliziert eine Hierarchie in den Formaten, die gespeichert werden können: FASTA ⊂ FASTQ ⊂ SAM.

      In einem typischen Workflow für Hochdurchsatzanalysen treten alle drei Dateitypen auf:

      1. FASTA zum Speichern des Referenzgenoms / Transkriptoms, auf das die Sequenzfragmente abgebildet werden.
      2. FASTQ zum Speichern der Sequenzfragmente vor dem Mapping.
      3. SAM / BAM zum Speichern der Sequenzfragmente nach dem Mapping.
Warum gibt es im FASTQ-Format ein Pluszeichen?
@charlesdarwin Ich habe keine Ahnung. Die Zeile mit dem Pluszeichen ist vollständig redundant. Die ursprünglichen Entwickler des FASTQ-Formats beabsichtigten es wahrscheinlich als Redundanz, um die Fehlerprüfung zu vereinfachen (= um festzustellen, ob der Datensatz vollständig war), aber dies schlägt fehl. Im Nachhinein hätte es nicht aufgenommen werden dürfen. Leider bleiben wir vorerst dabei.
@KonradRudolph ist meines Wissens fastq eine Kombination aus Fasta- und Qual-Dateien, siehe auch https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2847217/Dies erklärt den Header des Qualitätsteils. Es macht jedoch keinen Sinn, dass wir daran festhalten ...
#2
+16
eastafri
2017-05-16 23:57:28 UTC
view on stackexchange narkive permalink

Kurz gesagt, das

FASTA -Dateiformat ist ein DNA-Sequenzformat zum Spezifizieren oder Darstellen von DNA-Sequenzen und wurde zuerst von Pearson (Pearson, WR und Lipman) beschrieben , DJ (1988) Verbesserte Werkzeuge für den Vergleich biologischer Sequenzen. Proc. Natl Acad. Sci. USA, 85, 2444–2448)

FASTQ ist eine weitere DNA-Sequenz Dateiformat, das das FASTA-Format um die Möglichkeit erweitert, die Sequenzqualität zu speichern. Die Qualitätsbewertungen werden häufig in ASCII-Zeichen dargestellt, die einer Phrasenbewertung entsprechen.

Sowohl FASTA als auch FASTQ sind gängige Sequenzdarstellungsformate und haben sich als wichtige Datenaustauschformate für die Molekularbiologie und Bioinformatik herausgestellt.

SAM ist ein Format zur Darstellung von Sequenzausrichtungsinformationen von einem Leseausrichter. Es repräsentiert Sequenzinformationen in Bezug auf eine gegebene Referenzsequenz. Die Informationen werden in einer Reihe von tabulatorgetrennten ASCII-Spalten gespeichert. Die vollständige Spezifikation des SAM-Formats finden Sie unter http://samtools.sourceforge.net/SAM1.pdf

Historisch gesehen verwendete das Sanger-Institut zuerst das FASTQ-Format.
SAM kann auch (und wird zunehmend dafür verwendet, siehe PacBio) nicht ausgerichtete Sequenzinformationen speichern und entspricht in dieser Hinsicht FASTQ.
Beachten Sie, dass Fasta häufig auch für Proteindaten verwendet wird, nicht nur für DNA.
#3
+7
BaCh
2017-05-16 23:53:39 UTC
view on stackexchange narkive permalink

Übrigens ist der erste Teil Ihrer Frage etwas, das Sie selbst hätten nachschlagen können, als die ersten Treffer bei Google im "NAME-Format" Sie auf Primer auf Wikipedia verweisen, nicht weniger. Bitte tun Sie dies in Zukunft, bevor Sie eine Frage stellen.

  1. FASTA
  2. FASTQ
  3. SAM
  4. ol>

    FASTA speichert (offiziell) nur den Namen einer Sequenz und die Sequenz. Inoffiziell fügen die Leute auch Kommentarfelder nach dem Namen der Sequenz hinzu. FASTQ wurde erfunden, um sowohl Sequenz- als auch zugehörige Qualitätswerte (z. B. von Sequenzierungsinstrumenten) zu speichern. SAM wurde erfunden, um Alignments von (kleinen) Sequenzen (z. B. durch Sequenzierung erzeugt) mit zugehörigen Qualitätswerten und einigen weiteren Daten auf größeren Sequenzen, sogenannten Referenzsequenzen, zu speichern, wobei letztere alles von einer winzigen Virussequenz bis zu extrem großen Pflanzensequenzen umfassen.

#4
+4
Alon Gelber
2017-05-17 00:50:21 UTC
view on stackexchange narkive permalink

FASTA- und FATSQ-Formate sind beide Dateiformate, die Sequenzierungslesevorgänge enthalten, während SAM-Dateien diese Lesevorgänge sind, die an einer Referenzsequenz ausgerichtet sind. Mit anderen Worten, FASTA und FASTQ sind die "Rohdaten" der Sequenzierung, während SAM das Produkt der Ausrichtung der Sequenzierungslesevorgänge auf eine Referenz ist.

Eine FASTA-Datei enthält einen gelesenen Namen, gefolgt von der Sequenz. Ein Beispiel für einen dieser Lesevorgänge für RNASeq könnte sein:

  >Flow-Zellennummer: Fahrspurnummer: Chipkoordinaten usw. read hat zwei weitere Zeilen, eine + als Leerzeichenhalter und dann eine Zeile mit Qualitätswerten für die Basisaufrufe. Die Qualitäten werden als Zeichen mit '!' ist der niedrigste und '~' der höchste, wenn der ASCII-Wert erhöht wird. Es würde ungefähr so ​​aussehen  
  @Flow-Zellennummer: Spurnummer: Chipkoordinaten usw.ATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTAATTGGCTA +! '' * ((((*** +)) %%% ++) ( %%%%). 1 *** - + * '')) ** 55CCF>>>>>>CCCCCCC65  

Eine SAM-Datei enthält viele Felder für jede Ausrichtung. Der Header beginnt mit dem Zeichen @. Die Ausrichtung enthält 11 Pflichtfelder und verschiedene optionale Felder. Die Spezifikationsdatei finden Sie hier: https://samtools.github.io/hts-specs/SAMv1.pdf.

Oft sehen Sie nur BAM-Dateien komprimierte Binärversionen von SAM-Dateien. Sie können diese Ausrichtungsdateien mit verschiedenen Tools wie SAMtools, IGV oder USCS Genome Browser anzeigen.

In Bezug auf die Vorteile vergleicht FASTA / FASTQ vs. SAM / BAM Äpfel und Orangen. Ich mache viel RNASeq-Arbeit, also nehmen wir im Allgemeinen die FASTQ-Dateien und richten sie a refseq mit einem Aligner wie STAR aus, der SAM / BAM-Dateien ausgibt. Mit diesen Ausrichtungsdateien können Sie viel anfangen, wenn Sie sich den Ausdruck ansehen. Normalerweise verwende ich jedoch ein Tool wie RSEM, um die Lesevorgänge verschiedener Gene zu "zählen", um eine Expressionsmatrix zu erstellen, Stichproben als Spalten und Gene als Zeilen. Ob Sie FASTQ- oder FASTA-Dateien erhalten, hängt nur von Ihrer Sequenzierungsplattform ab. Ich habe noch nie von jemandem gehört, der die Qualitätsfaktoren wirklich verwendet.

Vorsicht, die Beschreibung des FASTQ-Formats ist falsch: Ein FASTQ-Datensatz kann mehr als vier Zeilen umfassen. Außerdem ist "+" kein Platzhalter, sondern ein Trennzeichen zwischen der Sequenz und dem Qualitätsfaktor, gefolgt von einer optionalen Wiederholung der Datensatz-ID. Schließlich muss die Qualitätsfaktor-Zeichenfolge dieselbe Länge wie die Sequenz haben.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...