Hier gibt es Sequenzierungsdaten mit hohem Durchsatz hier, und ich weiß nicht, in welchem Format sie vorliegen.
Sie wurden 2009 eingereicht und in der Beschreibung heißt es:
Bibliotheksstrategie: ncRNA-Seq
Bibliotheksquelle: transkriptomisch
Bibliotheksauswahl: Größenfraktionierung
Instrumentenmodell: Illumina Genome Analyzer II
Beschreibung: CIPPNK, TAR-Datei von Illumina * _seq.txt-Dateien als Zusatzdatei bereitgestellt
Ich habe das Archiv hier:
Im Inneren befinden sich 330 Dateien aus s_1_0001_seq.txt
bis s_1_0330_seq.txt
sind tabulatorgetrennte Textdateien, bei denen die erste Spalte immer 1
ist, die zweite die Nummer im Dateinamen und dann 2 mysteriöse ganze Zahlen, und dann, was wie eine Lesung der Länge 36 aussieht, mit manchmal einem Punkt anstelle eines Letts er:
$ head s_1_0330_seq.txt 1 330 690 785 TTCCTACATTGTTCCCCCATGCTGTTGGCACCATCA1 330 44 145 TTTTTATCACGAGTTTTAAATCTGTAGTCACCATCA1 330 53 141 AATAATGCATAACAAAACGGAATCTGTAGAA.AAA.1 330 784 461 330 588 634 TAATTGTAGTGATTGATCAATCTGTAGGCACCATCA1 TATTATGCACATTTTCTAGTTCACTGTAGGCACCAT1 330 718 678 TTACATGTTTCGGGTAGGAGCCTGTAGGCACCATCA1 330 635 834 TGTGATCATTAGTTCAAAGCCCCCTGTCGGCACCCT1 330 494 523 TGAAAATCAAAAATGCTGAACTGTAGGCACCATCAA1 330 393 783 TTTTTTTTTAAATTTAAAAAAACTGTAGGCACCATC1 330 48 148 GTTTAACCGTGTAGACGTTGGTTTCTGTAGGCACCA
Ich glaube, jemand in einer Nachricht von 2008 in Sequanswers hat sich mit diesem Dateityp befasst: http://seqanswers.com/forums/showpost.php?p= 1841&postcount = 8
Was ist dieses Format, das damals so Standard schien, dass die Autoren nicht mehr Informationen gaben, als die Dateien als "Illumina * _seq.txt-Dateien" zu beschreiben? Ich wage es nicht, sie nach einer so trivialen Frage zu fragen (der angegebene Kontakt ist ein Nobelpreisträger und wahrscheinlich zu beschäftigt, um zufällige Fragen zur Bioinformatik zu beantworten).
Was sind insbesondere die Spalten 3? und 4, und was bedeuten die Punkte?