Frage:
Gibt es Datenbanken mit Vorlagen für gängige bioinformatische Dateiformate?
Chris_Rands
2017-06-02 19:08:50 UTC
view on stackexchange narkive permalink

Ich möchte einige Vorlagen in verschiedenen Dateiformaten, mit denen ich meine Skripte testen und mögliche Fehler in meinem Code identifizieren kann.

Betrachten Sie beispielsweise das Nukleotid FASTA, ein einfaches, aber häufig missbrauchtes Format Ich möchte, dass Vorlagen reguläre und unregelmäßige Formate erfassen, wie ich sie alle gesehen habe:

1) Einzeilige Sequenz

  >1ATG  

2) Mehrzeilige Folge

  >1ATG  

3) Groß- und Kleinbuchstaben in Folge

  >1Atg  

4) Ns und Xs (und möglicherweise andere Buchstaben) nacheinander

  >1ANnxX  

5) Ungewöhnliche Überschriften ( Manchmal müssen Nicht-ASCI-Zeichen die Codierung berücksichtigen.)

  >ATG > 汉字 ATG  

6) Leerzeichen zwischen Datensätzen

  >1ATG>2ATG  

7) Doppelte Header

  >1ATG>1ATC  

8) Leere Header oder Sequenzen (gültige FASTA) ?)

  >>  

9) Kein neues Zeichen '\ n' in der letzten Zeile (kann die Datei durcheinander bringen Verkettung)

  >1A # < hier keine neue Zeile  

10) Unterschiedliche Zeilenumbrüche je nach Betriebssystem

  >1A # \ r \ n vs \ n  

usw.

Es sollten separate Vorlagen für Nukleotid- und Protein-FASTA und separate Vorlagen für ausgerichtetes FASTA vorhanden sein. P. >

Idealerweise werden auch andere Aspekte berücksichtigt, z. B. unterschiedliche Komprimierungsformate (z. B. .gz , .bzip2 ) und unterschiedliche Dateierweiterungen (z. B. ). fa , .fasta ​​code>).

Ich habe noch nie Ressourcen gesehen, die Vorlagen für diese bereitstellen, aber ich denke, es wäre nützlich. Natürlich könnte ich meine eigenen Vorlagen erstellen, aber es würde einige Zeit dauern, alle wahrscheinlichen Variationen der Formate zu erfassen, insbesondere für komplexere Dateiformate.

Hinweis: Ich interessiere mich nicht nur für das FASTA-Format, es war ein Beispiel.

Beachten Sie auch, dass ich Tools (wie BioPython ) kenne, die viele Formate verarbeiten sollten gut, aber sie können auch Fehler haben. In der Praxis analysiere ich manchmal Dateien direkt, weil ich nicht den Overhead oder die Abhängigkeit eines externen Pakets haben möchte.

BEARBEITEN: Bitte beantworten Sie diese Frage nicht, um zu sagen, dass Sie dies nicht tun Ich kenne keine solchen Ressourcen, auch nicht, daher die Frage. blis hilfreiche Antwort zeigt, dass es mindestens eine Testsuite gibt, die als Ausgangspunkt verwendet werden könnte. Ich weiß, dass es normalerweise einfach ist, die Spezifikation eines bestimmten Dateiformats nachzuschlagen.

Tatsächlich ist die Definition des FASTA-Formats sehr einfach. Es gibt nur zwei Einschränkungen und die zweite wird oft ignoriert: i) Kopfzeilen müssen mit `>` beginnen und können alles enthalten, was ihnen gefällt, außer einem `\ n`. ii) Sequenzzeilen sollten 60 Zeichen pro Zeile enthalten. Nichts anderes ist relevant, nicht die Anzahl der Sequenzzeilen, nicht die Zeichen in der Kopfzeile, nicht die Erweiterung (die außerhalb der Windows-Welt normalerweise sowieso irrelevant ist), es gibt keine Einschränkung, welche Zeichen eine Sequenz haben kann (daher kein Unterschied zwischen Protein- und Nucleotid-Fasta-Spezifikationen).
Sicher, die Spezifikation ist einfach, aber wie Sie in der Praxis sagen, wird sie nicht immer befolgt, und wenn Sie eine Datei analysieren, werden alle diese Variationen relevant. Ich habe viele Werkzeuge über seltsame FASTA-Header oder -Sequenzen stolpern lassen, und es ist eindeutig wichtig, dass die Werkzeuge Nukleotide von Aminosäuren unterscheiden. Sie können beispielsweise Glob-Dateien mit nur einem bestimmten Suffix verwenden.
Wenn die Werkzeuge daran ersticken, ignorieren die Werkzeuge den Standard. Der FASTA-Standard ist einer der wenigen, der tatsächlich klar und leicht zu verstehen ist. Es ist einfach ein sehr freies Format. Und ja, natürlich können Sie Erweiterungen nutzen. Ich neige zum Beispiel dazu, meine Proteindateien ".pep" und nt ".fa" zu nennen, aber es gibt keinen Standard dafür. Alles, was Ihre Werkzeuge tun müssen, ist i) die gesamte Zeile nach einem `>` als Sequenznamen und ii) alles andere als Sequenz zu verwenden. Das ist alles und das ist alles was man braucht um Fasta zu sein.
Sicher, die Tools ignorieren möglicherweise den Standard, und deshalb finde ich es gut, verschiedene Vorlagen zum Testen der Tools zu haben. Und es ist nicht immer einfach, z. Wenn Sie FASTA-Header verwenden, um nachfolgende Dateien zu benennen, können Sonderzeichen störend sein. Wie ich bereits sagte, war FASTA nur ein Beispiel, und die Logik erstreckt sich auch auf andere komplexere Formate
Sie erwähnen "Ich interessiere mich nicht nur für das FASTA-Format, es war ein Beispiel", sondern denken Sie daran, dass es am besten ist, Fragen so spezifisch wie möglich zu halten.
Sechs antworten:
#1
+7
bli
2017-06-02 21:18:49 UTC
view on stackexchange narkive permalink

Sie erwähnen Biopython, das Tests enthält: https://github.com/biopython/biopython/tree/master/Tests.

Einige der Tests bestehen aus Lesen Dateien in den Ordnern, die unter dem obigen Link aufgeführt sind. Diese Dateien können ein Ausgangspunkt für eine Datenbank mit Testdateien sein. Immer wenn man auf einen Testfall stößt, der nicht mit diesen Dateien abgedeckt ist, kann man eine neue Testdatei erstellen und zusammen mit einem Test zu Biopython beitragen oder zumindest ein Problem einreichen: https://github.com/biopython / biopython / issue.

Dies wäre eine Möglichkeit, einen Beitrag zu Biopython zu leisten und gleichzeitig eine Datenbank mit Testdateien zu erstellen.

Danke, ich mag diese Idee; Ich frage mich, ob BioPerl und andere Projekte auch ähnliche Testsuiten enthalten, die verwendet werden könnten
Ein "Ich auch" hier: Ich habe manchmal die Beispiel- oder Testdaten für BioPython als Testdaten für andere Programme verwendet. Sie haben zumindest die Gewissheit, dass es gültig ist. Möglicherweise finden Sie einige ähnliche nützliche Daten mit den Galaxy-Tools.
#2
+5
olga
2017-06-03 00:44:01 UTC
view on stackexchange narkive permalink

Nicht dass ich es wüsste. Es ist am besten, beim Codieren die Formatspezifikationen einzuhalten.

Es kann auch sinnvoll sein, sich die Beispieldateien anzusehen, die zusammen mit verschiedenen Tools zur Dateikonvertierung und -verarbeitung geliefert werden. Z.B.

#3
+2
woemler
2017-06-02 22:08:55 UTC
view on stackexchange narkive permalink

Soweit ich weiß, gibt es kein einziges Repository, das alle in der Bioinformatik verwendeten gängigen Datenformate sammelt. In der Regel müssen Sie zur Quelle gehen, um die Spezifikationen für jedes Format zu finden. Es gibt jedoch einige Stellen, an denen Beschreibungen von Dateiformaten gesammelt werden:

  • IGV-Dateiformate deckt alle Formate ab, die in der Integrative Genomics Viewer-Software des Broad Institute verwendet werden können ( das ist eine Menge).
  • NCI-Dateiformate, hauptsächlich von TGCA verwendete Formate (einschließlich MAF und VCF).
  • UCSC Genomics deckt BED, MAF und einige andere ab.
  • GenePattern deckt viele der Dateiformate ab, die sich auf Microarray-Daten beziehen.
  • GSEA, Dokumentation zur Analyse breiter Gen-Set-Anreicherungen.
#4
+2
jgreener
2020-03-31 16:26:12 UTC
view on stackexchange narkive permalink

BioJulia verwaltet BioFmtSpecimens. Aus der README:

In der Bioinformatik gibt es zahlreiche Formate und Parser für diese Formate. Diese Parser sind sich nicht immer über die Definitionen dieser Formate einig, da vielen ein formaler Standard fehlt.

Dieses Repository zielt darauf ab, eine Sammlung von Formatmustern zu konsolidieren, um einen einheitlichen Datensatz zu erstellen, mit dem zu arbeiten ist Software gegen testen. Das Testen anhand derselben Fälle ist ein erster Schritt, um die Details und Randfälle eines Formats zu vereinbaren.

#5
+1
terdon
2017-06-02 19:24:56 UTC
view on stackexchange narkive permalink

Nein. Zumindest keine, von denen ich gehört habe, und ich bezweifle, dass es jemals welche geben wird. Es gibt kein zentrales Repository für Formate und jedes Tool, jede Community, jedes Feld usw. hat seine eigenen.

Das Beste, was Sie tun können, ist, den offiziellen Standard für jedes Format nachzuschlagen und zu hoffen, dass sie Beispiele enthalten. Eine wirklich umfassende Sammlung aller möglichen Variationen ist für schreckliche del> komplexe Formate wie VCF grundsätzlich unmöglich. Denken Sie nur an die einfache Tatsache, dass benutzerdefinierte INFO -Felder mit beliebigen Inhalten zulässig sind.

Das Beste, was Sie tun können, ist sicherzustellen, dass Ihre Skripte dem Standard entsprechen, und zu hoffen, dass Ihre Eingaben dies auch tun.

Es könnte jedoch ein zentrales Repository mit Vorlagen für die gängigsten Formate geben. Ich verstehe nicht warum nicht? Es kann natürlich nicht vollständig sein. Für mich scheint das eine gute Idee zu sein ...
@Chris_Rands in der Regel gibt es leider nur sehr wenige zentralisierte * irgendetwas * in der Biologie und das ist ein allgemeines Problem auf dem Gebiet. Trotzdem gebe ich zu, dass ich die Verwendung dafür nicht wirklich sehe. Was Sie brauchen, ist der Standard. Mehrere Beispiele für die unterschiedliche Anwendung des Standards scheinen mir nicht allzu hilfreich zu sein. Zumindest nicht, wenn der Standard gut definiert ist (was nicht immer der Fall ist). Wenn ich darüber nachdenke, kann ich mir kein solches Repository mit Formatbeispielen im Allgemeinen vorstellen, nicht nur in der Biologie.
Danke, nun, ich stimme dem Mangel an Standardisierung / Zentrierung zu. Die Hauptanwendung für mich wären Testfälle / Unit-Tests. Die Spezifikation zu kennen ist eine Sache, aber das Erkennen aller Randfälle kann ohne Testen schwierig sein
@Chris_Rands s / knifflig / unmöglich :) Ich habe jetzt nach anderthalb Jahrzehnten in der Wissenschaft in der Industrie gearbeitet und Sie würden den Mist, den wir als "VCF-Dateien" erhalten haben, nicht * glauben *. Es gibt keine Möglichkeit, alle Randfälle abzudecken. Einige Leute geben Ihnen eine Excel-Datei mit der Erweiterung .vcf und erwarten, dass sie funktioniert :(
Ich denke, ein Github-Repo mit Beispielen für Edge-Cases für jedes Format ist eine großartige Idee - jedes Mal, wenn einer von uns auf eine neue Art und Weise auf etwas stieß, das jemand mit einem Format gemacht hatte, konnten wir eine PR für das Repo herausgeben.
#6
  0
tweirick
2017-06-02 19:24:46 UTC
view on stackexchange narkive permalink

Diese sind möglicherweise nicht genau das, wonach Sie suchen, enthalten jedoch eine Vielzahl von Formaten mit Beispielen. Wenn Sie mehr möchten, können Sie versuchen, andere wichtige Datenbanken zu durchsuchen, in denen andere Arten von z. Uniprot, PDB, NCBI.

https://genome.ucsc.edu/FAQ/FAQformat.html

http://www.ensembl.org/info /website/upload/bed.html

Vielen Dank, ich bin mit UCSC und Ensembl und ihren Formatbeschreibungen vertraut, aber das habe ich nicht wirklich mit Vorlagen gemeint


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...