Frage:
Wie kann ich unbekannte Barcode- / Adaptersequenzen innerhalb einer Reihe von Proben systematisch erkennen?
story
2017-05-31 14:49:30 UTC
view on stackexchange narkive permalink

Ich habe häufig Datensätze von der SRA heruntergeladen, in denen die Autoren nicht erwähnt haben, welche Adapter während der Verarbeitung gekürzt wurden.

Lokale Ausrichtungen überwinden dieses Hindernis, fühlen sich jedoch etwas barbarisch an.

fastQC arbeitet gelegentlich daran, sie abzurufen, findet jedoch manchmal die tatsächlichen Adaptersequenzen nicht.

Normalerweise habe ich die verwendeten Kits nachgeschlagen und versucht, nach allen möglichen Barcodes zu suchen.

Gibt es eine robustere / effizientere Möglichkeit, dies zu tun?

Dies beantwortet Ihre Frage nicht, aber ich hoffe, dass es eine Möglichkeit gibt, solche Probleme der SRA zu melden, damit sie die Autoren auffordern, die fehlenden Informationen zu veröffentlichen.
Warum empfinden Sie die lokale Ausrichtung als etwas barbarisch? Dies sollte heutzutage die Standardmethode sein, es sei denn, Sie arbeiten mit der SmallRNA-Sequenzierung. Ich neige dazu, Adapter zu trimmen, um auf der sicheren Seite zu sein, aber ich habe viel Arbeit geleistet, ohne mich darum zu kümmern, und mich nur auf die lokale Ausrichtung verlassen.
Vier antworten:
#1
+4
ewels
2017-06-02 12:52:08 UTC
view on stackexchange narkive permalink

Sie erwähnen, dass FastQC "die tatsächlichen Adaptersequenzen nicht findet" - ich denke, Sie meinen dies im Diagramm zur Kontamination der Adaptersequenz. Die kmer- und Sequenzinhaltsdiagramme sind jedoch häufig auch dann nützlich, wenn erstere fehlschlagen. Ich habe diese in der Vergangenheit verwendet - manchmal können Sie die Adaptersequenz einfach vom Beginn des Sequenzinhaltsplots ablesen (oder zumindest sehen, wie viele Basen zu trimmen sind).

#2
+2
gringer
2017-05-31 15:45:23 UTC
view on stackexchange narkive permalink

Mir sind keine Methoden bekannt, um dies zu tun, aber hier sind einige Ideen, wie dies getan werden könnte:

Canu hat eine Methode zum Trimmen von Adaptern, bei der nach Abwesenheit gesucht wird der Überlappung für Lesevorgänge. Wenn es keine anderen Lesevorgänge gibt, die die Sequenz in einer bestimmten Region gemeinsam nutzen, wird der Lesevorgang an dem Punkt geringer Abdeckung unterbrochen und kleine Teile werden verworfen. Es wäre möglich, eine Methode wie diese zu verwenden, um nach möglichen Adapter- / Barcode-Sequenzen zu suchen, indem die kurzen Lesevorgänge beibehalten werden.

Eine andere Option besteht darin, zu Beginn der Lesevorgänge eine Kmer-Suche durchzuführen und festzustellen, ob eine davon vorliegt Die Kilometer mit hoher Häufigkeit können zusammengebaut und / oder an vorhandene bekannte Adapter oder Barcodes angepasst werden.

#3
+1
bli
2017-05-31 15:28:26 UTC
view on stackexchange narkive permalink

Wenn Sie zufällig eine Sequenz kennen, die in der Bibliothek sehr häufig vorkommen sollte, können Sie deren Anfang oder Ende (mit Hervorhebung der Musterübereinstimmung) überprüfen und prüfen, ob dieselbe Sequenz systematisch kurz vor bzw. kurz danach kommt. Diese Art der Sichtprüfung kann Ihnen beim Auffinden des Adapters helfen.

In einem früheren Labor haben wir beispielsweise an D gearbeitet. melanogaster kleine RNA-Sequenzierungsdaten und mein Kollege wussten aus früheren Erfahrungen mit dieser Art von Daten, dass die folgende kleine RNA wahrscheinlich reichlich vorhanden ist: http://flybase.org/reports/FBgn0065042.html

Wir mussten es nur in der fastq-Datei durchsuchen, um viele Zeilen mit dieser Sequenz neben einer anderen Sequenz zu sehen, die zufällig immer dieselbe war: dem unbekannten Adapter.

Darf ich den Grund für die Ablehnung kennen? Ich habe gesehen, dass diese Methode in einem Fall von kleiner RNA-Sequenz angewendet wurde, in dem eine sehr häufig vorkommende Sequenz erwartet wurde. Die visuelle Überprüfung der Ausgabe von grep dieser Sequenz (mit Musterhervorhebung) ergab einen sehr guten Hinweis darauf, was der Adapter war (der nicht hervorgehobene Teil).
Die Frage ist, wie unbekannte Adaptersequenzen erkannt werden können, sodass das OP im Voraus nicht über zahlreiche Sequenzen informiert ist. Das ist der Punkt der Frage ...
@tallphil Ich sehe keinen Zusammenhang zwischen der Unkenntnis des Adapters und der Unkenntnis einer reichlich vorhandenen Sequenz, von der erwartet wird, dass sie in den Daten vorhanden ist. Wenn ich mich gut erinnere, wusste mein Kollege in dem Beispiel, das ich in meinem Kommentar erwähne, aus früheren Erfahrungen mit dieser Art von Daten, dass die folgende kleine RNA wahrscheinlich reichlich vorhanden ist: http://flybase.org/reports/FBgn0065042.htmlWir sind gerade musste es in der fastq-Datei durchsuchen, um viele Zeilen mit dieser Sequenz neben einer anderen Sequenz zu sehen, die zufällig immer dieselbe war: dem unbekannten Adapter.
Eigentlich habe ich Ihren Beitrag gerade noch einmal gelesen und jetzt sehe ich, was Sie gemeint haben. Dies ist eine vernünftige Idee. Ich denke jedoch, dass Sie es schlecht erklärt haben, in dem Sinne, dass ein Leser verwirrt sein könnte und Sie meinten, dass die Suche nach der am häufigsten vorkommenden Sequenz den Barcode ergeben könnte. Sie sollten angegeben haben, dass die "reichlich vorhandene Sequenz" in diesem Fall eine bekannte Nukleinsäuresequenz war, bei der Adapter an ein oder beide Enden ligiert sein sollten.
Ach ja, Entschuldigung - genau so habe ich es gelesen. Wahrscheinlich hat es nicht geholfen, dass in der ursprünglichen Frage nach den erwarteten Adaptersequenzen gesucht wird, also war das in meinem Kopf frisch :) Sorry @bli! Downvote war nicht von mir, also kann ich es leider nicht zurückziehen.
Ich habe versucht, meine Erklärungen zu klären.
#4
+1
Nils
2017-06-02 16:41:16 UTC
view on stackexchange narkive permalink

Das Dienstprogramm minion aus dem Kraken / Reaper-Toolkit kann hierfür hilfreich sein: http://wwwdev.ebi.ac.uk/enright-dev/kraken/reaper/src/ reaper-latest / doc / minion.html

Dies scheint genau die richtige Art von Werkzeug zu sein. Obwohl zu schade, wurde es hauptsächlich für den 3'-Endadapter entwickelt. Ich frage mich, ob Sie einfach alle Ihre Lesungen umdrehen und auf das 5'-Ende anwenden könnten.


Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...