Frage:
Berechnen überlappender Gene zwischen zwei Versionen der Genomannotation
holmrenser
2017-05-17 16:51:45 UTC
view on stackexchange narkive permalink

Ich habe zwei Annotationen desselben Genoms, die mit unterschiedlichen Annotationspipelines generiert wurden. Ich möchte überlappende Genmodelle identifizieren.

Ein wichtiges Merkmal dieses Genoms ist, dass es viele "Gene innerhalb von Genen" gibt, d. h. ein Genmodell im Intron eines anderen Genmodells . Daher möchte ich nur zwei Genmodelle als überlappend zählen, wenn sich ihre Exon-Annotationen der Codierungssequenz überlappen.

Wenn Sie so etwas wie Bedtools schneiden verwenden, ist es einfach, die Überlappung zwischen den Annotationen auf Genebene zu berechnen .

Allerdings: Ich bin nicht sicher, wie Gene als überlappend ausgewählt werden sollen, wenn sich nur ihre codierenden Sequenz-Exons (CDS-Merkmale) überlappen.

Warum extrahieren Sie nicht die Koordinaten Ihrer CDS-Regionen aus Ihren Bett- / GFF-Dateien und überschneiden sich dann die Bettwerkzeuge?
Das würde mich immer noch nur mit den überlappenden CDS-Funktionen belassen. Am Ende möchte ich die _genes_ wissen. Warum schreiben Sie Ihren Kommentar nicht in eine Antwort?
Einer antworten:
#1
+6
Gus
2017-05-17 19:56:36 UTC
view on stackexchange narkive permalink

Kurze Antwort: Meiner Meinung nach würde mein Ansatz darin bestehen, die CDS-Exons herauszuziehen und auf diesen Bedtools auszuführen.

Einige weitere Details: Wenn Sie die Exons herausziehen, stellen Sie sicher, dass Sie ihnen alle IDs zuweisen, falls ihnen diese noch nicht zugewiesen wurden, und notieren Sie, welche IDs "gehören". zu welchen Genen. Wenn Sie nun Exons erhalten, die sich überlappen, wissen Sie, dass sie codieren, und Sie können sie mit den Genen verknüpfen, aus denen sie stammen.



Diese Fragen und Antworten wurden automatisch aus der englischen Sprache übersetzt.Der ursprüngliche Inhalt ist auf stackexchange verfügbar. Wir danken ihm für die cc by-sa 3.0-Lizenz, unter der er vertrieben wird.
Loading...