Frage:
Aufbau des STAR-Genomindex für die Nanoporen-RNA-Sequenzierung
Scott Gigante
2017-06-07 09:20:05 UTC
view on stackexchange narkive permalink

Ich richte einen Datensatz von 1.000.000 Lesevorgängen für humane mRNA aus, die auf MinION von Oxford Nanopore Technologies sequenziert wurde, und möchte den STAR-Aligner unter Verwendung der von Pacific Biosciences empfohlenen -Parameter für lange Lesevorgänge verwenden.

Laut diesem Google Groups-Thread sollte beim Einrichten des Genomindex für kurze Lesevorgänge der Parameter sjdbOverhang auf 1 weniger als der Lesevorgang gesetzt werden Länge. Bei langen Lesevorgängen (Mittelwert 1,7 KB, max.> 50 KB) ist dies offensichtlich nicht sinnvoll.

Ausführen von STARlong --runMode GenomGenerate ohne Festlegen von sjdbOverhang setzt den Parameter auf 0 . Weiß jemand, was dies bedeutet, wie sich dies auf das Mapping auswirken kann und worauf ich es für meine langen Lesevorgänge einstellen sollte?

Keine Antwort, aber für Transkripte in voller Länge lohnt es sich, traditionelle cDNA-Mapper wie gmap und blat in Betracht zu ziehen. Wie gut sie arbeiten, hängt von der Fehlerrate ab. Bei einer Fehlerrate von ~ 5% sind sie wahrscheinlich in Ordnung. Wenn Sie die ältere Chemie verwenden, funktionieren sie möglicherweise nicht.
Ein sehr guter Punkt. Wir verwenden GMAP als Baseline Aligner, aber ich wollte STAR ausprobieren, um die überraschenden Ergebnisse in diesem bioRxiv-Preprint zu bestätigen: http://biorxiv.org/content/early/2017/04/11/126656
Zwei antworten:
#1
+7
GWW
2017-06-07 09:50:55 UTC
view on stackexchange narkive permalink

Der Parameter wird verwendet, um zu bestimmen, wie viele Sequenz-STAR-Indizes auf jeder Seite eines Spleißübergangs vorhanden sind, um dessen Ausrichtungsgenauigkeit zu verbessern. Für sehr lange Lesevorgänge ist dies möglicherweise nicht ideal. Ich bin nicht sicher, ob STAR mehrere Spleißverbindungen einschließen kann, da ein langer Lesevorgang mehr als wahrscheinlich mehrere umfasst.

Es kann sinnvoll sein, Ihre Lesevorgänge direkt an Transkripten auszurichten und die schlecht ausgerichteten Lesevorgänge zu verwenden, um nach neuartigen Transkripten zu suchen.

#2
+3
gringer
2017-06-07 09:58:25 UTC
view on stackexchange narkive permalink

Ich habe festgestellt, dass das STAR-Handbuch unglaublich hilfreich ist, wenn ich versuche, mich in allen STAR-Befehlszeilenparametern zurechtzufinden. Hier ist der Abschnitt zum Parameter sjdbOverhang :

--sjdbOverhang gibt die Länge der Genomsequenz um den mit Anmerkungen versehenen Übergang an, in der verwendet werden soll Erstellen der Spleißverbindungsdatenbank. Idealerweise sollte diese Länge der ReadLength-1 entsprechen, wobei ReadLength die Länge der Lesevorgänge ist. Für Illumina 2x100b Paired-End-Lesevorgänge beträgt der ideale Wert beispielsweise 100-1 = 99. Bei Lesevorgängen unterschiedlicher Länge ist der ideale Wert max (ReadLength) -1 . In den meisten Fällen funktioniert der Standardwert 100 ebenso wie der ideale Wert.

[Hervorhebung aus dem Originaltext]

Ich würde empfehlen, STAR mit diesem nicht festgelegten oder auf 100 gesetzten Wert auszuführen und zu sehen, wie es geht. Wenn Sie besonders abenteuerlustig sein möchten, können Sie 1000 festlegen und prüfen, ob sich etwas ändert.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...