Frage:
Was ist dieses 5-Spalten-Sequenzierungsformat von 2009?
bli
2017-10-31 19:58:24 UTC
view on stackexchange narkive permalink

Hier gibt es Sequenzierungsdaten mit hohem Durchsatz hier, und ich weiß nicht, in welchem ​​Format sie vorliegen.

Sie wurden 2009 eingereicht und in der Beschreibung heißt es:

  • Bibliotheksstrategie: ncRNA-Seq

  • Bibliotheksquelle: transkriptomisch

  • Bibliotheksauswahl: Größenfraktionierung

  • Instrumentenmodell: Illumina Genome Analyzer II

  • Beschreibung: CIPPNK, TAR-Datei von Illumina * _seq.txt-Dateien als Zusatzdatei bereitgestellt

  • Ich habe das Archiv hier:

    ftp: //ftp.ncbi.nlm.nih .gov / geo / samples / GSM455nnn / GSM455387 / Suppl / GSM455387% 5FWT% 5FCIPPNK% 5Fseq% 5Fs1% 2Etar% 2Egz

    Im Inneren befinden sich 330 Dateien aus s_1_0001_seq.txt bis s_1_0330_seq.txt sind tabulatorgetrennte Textdateien, bei denen die erste Spalte immer 1 ist, die zweite die Nummer im Dateinamen und dann 2 mysteriöse ganze Zahlen, und dann, was wie eine Lesung der Länge 36 aussieht, mit manchmal einem Punkt anstelle eines Letts er:

      $ head s_1_0330_seq.txt 1 330 690 785 TTCCTACATTGTTCCCCCATGCTGTTGGCACCATCA1 330 44 145 TTTTTATCACGAGTTTTAAATCTGTAGTCACCATCA1 330 53 141 AATAATGCATAACAAAACGGAATCTGTAGAA.AAA.1 330 784 461 330 588 634 TAATTGTAGTGATTGATCAATCTGTAGGCACCATCA1 TATTATGCACATTTTCTAGTTCACTGTAGGCACCAT1 330 718 678 TTACATGTTTCGGGTAGGAGCCTGTAGGCACCATCA1 330 635 834 TGTGATCATTAGTTCAAAGCCCCCTGTCGGCACCCT1 330 494 523 TGAAAATCAAAAATGCTGAACTGTAGGCACCATCAA1 330 393 783 TTTTTTTTTAAATTTAAAAAAACTGTAGGCACCATC1 330 48 148 GTTTAACCGTGTAGACGTTGGTTTCTGTAGGCACCA  
    Ich glaube, jemand in einer Nachricht von 2008 in Sequanswers hat sich mit diesem Dateityp befasst:

    http://seqanswers.com/forums/showpost.php?p= 1841&postcount = 8

    Was ist dieses Format, das damals so Standard schien, dass die Autoren nicht mehr Informationen gaben, als die Dateien als "Illumina * _seq.txt-Dateien" zu beschreiben? Ich wage es nicht, sie nach einer so trivialen Frage zu fragen (der angegebene Kontakt ist ein Nobelpreisträger und wahrscheinlich zu beschäftigt, um zufällige Fragen zur Bioinformatik zu beantworten).

    Was sind insbesondere die Spalten 3? und 4, und was bedeuten die Punkte?

    Einer antworten:
    Bioathlete
    2017-10-31 20:07:31 UTC
    view on stackexchange narkive permalink

    Dies ist ein frühes Solexa / Illumina-Sequenzerformat. Die Spalten sind die Kennung für die Position in der Durchflusszelle. Ich glaube das "." war der ursprüngliche Platzhalter für eine ungelesene Basis, die in der aktuellen Illumina-Sequenzierungsausgabe durch und "N" ersetzt wurde.

    Ab http://www.crg.eu/en/content/ Verarbeitung und Analyse von Beleuchtungssequenzierungsdaten.

    seq.txt (Gerald)

    4 1 23 1566 ACCGCTCTCGTGCTCGTCGCTGCGTTGAGGCTTGCG

    Die ersten 4 Spalten sind eine ID, die Standortdetails des Clusters in der Durchflusszelle enthält, gefolgt von der Lesesequenz. Die Dateigröße von Seq.txt liegt normalerweise zwischen 250 Megabyte und 1 Gigabyte. Pro Spur wird eine Datei generiert.

    Ah, wenn die Autoren keine anderen Dateien bereitgestellt haben, kann ich diese wahrscheinlich nur in Fastq konvertieren, indem ich beliebige Eigenschaften auswähle.
    Korrigieren Sie dieses Format enthielt keine Qualitätsbewertungen. Es gab eine qseq.txt-Datei, die dies tat. Obwohl, um ehrlich zu sein, die Qualitätswerte damals nicht so aussagekräftig waren, da der Illumina-Algorithmus sie nicht sehr genau zuordnete.


    Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
    Loading...