Vor kurzem hat ein BLAST -Parameter -max_target_seqs n
viel Aufmerksamkeit erhalten. Anstelle der intuitiven Interpretation (Rückgabe der besten n
-Sequenzen) werden die Parameter aufgefordert, die ersten n
-Sequenzen zurückzugeben, die den E-Wert-Schwellenwert überschreiten. Dies betrifft Tausende von Workflows und Analysen, die die intuitive Interpretation voraussetzen.
Ich habe auch festgestellt, dass es einen anderen Parameter namens -num_alignments
gibt. Was ist der Unterschied? Die verwandte Frage zu BioStars scheint den Parameter max_target_seqs
falsch zu interpretieren. Wird num_alignments
ebenfalls missverstanden?
Nun die Hauptfrage. Wie kann ich Blast ausführen, um die besten n
Treffer in der Datenbank zu erzielen?
Bis jetzt dachte ich, dass dieses Beispiel den Job erledigen wird:
blastp -query $ QUERY -db $ span> PROTEINE -out $ BLASTOUT -evalue 1e-10 -outfmt 6 -num_alignments 5
- edit -
Jetzt habe ich verstanden, dass ich die gewünschte Ausgabe nicht nur durch Explosionsparameter erreichen kann, aber ich sehe immer noch keine Antwort darauf, wie ich die besten n Treffer erzielen kann. Also wollte ich herausfinden, wie man alle Ergebnisse erhält, und das ist auch nicht intuitiv. Der Parameter -max_target_seqs
ist standardmäßig auf 500 eingestellt. Bedeutet dies, dass ich bei mehr als 500 signifikanten Treffern keine Garantie für den besten habe? Muss ich max_target_seqs
für eine verrückte hohe Zahl angeben, um sicherzugehen, dass ich sie alle habe?