Bereichsüberlappungspythonfehler mit genomischen Regionen

novicebioinforesearcher

2017-06-21 00:26:57 UTC

view on stackexchange narkive permalink

Ich habe zwei Dateien

  s3.txt: 1 10 201 5 202 20 302 25 301 10 502 20 601 14 17s4.txt: 1 10 202 20 30

Ich versuche, col0 beider Dateien abzugleichen und Zeilen zu erhalten, die zwischen dem Bereich (einschließlich ihrer selbst) 10-20 und 20-30 liegen, wie in s4 gezeigt. file.file s4 hat Koordinaten, die als verwendet werden können Referenzbereich (Chrom Anfang und Ende) und s3 enthält eine Liste von Koordinaten aus einer experimentellen Bedingung. Ich versuche zu erreichen, auf welche Koordinaten aus meiner Datei s3 auf oder zwischen meine Referenzkoordinaten in s4 fallen.

bisheriger Code:

  enthält_ranges = [] mit open ('s4.txt', 'r') als f: für Zeile in f: fields = Zeile. strip (). split ('\ t') enthält_ranges.append (Felder) getestete_ranges = [] mit open ('s3.txt', 'r') als f: für Zeile in f: fields = line.strip (). split ('\ t') testing_ranges.append (Felder) für c_range in enthaltenden Bereichen: für t_range in getesteten Bereichen: tst = int (t_range [1]) ten = int (t_range [2]) cst = int (c_range [1]) cen = int (c_range [2]) wenn c_range [0] == t_range [0]: eingeschlossen = cst > = tst und cen < = zehn wenn enthalten == True: print t_range

Ausgabe mit fehlender Zeile (1 14 17):

  ['1', '10', '20'] ['1', '5', '20'] ['1 ',' 10 ',' 50 '] [' 2 ',' 20 ',' 30 '] [' 2 ',' 20 ',' 60 ']

Gewünschte Ausgabe:

  1 10 202 20 302 25 301 14 17

Ich bin mir nicht sicher, ob meine Logik falsch ist und warum 14-17 als i fehlt t liegt zwischen 10-20

  [EDIT] unter Verwendung von pybedtools>>> print (s4.intersect (s3, wb = True)) 1 10 20 1 10 201 10 20 1 5 201 10 20 1 10 501 14 17 1 14 172 20 30 2 20 302 25 30 2 25 302 20 30 2 20 60>>> print (s4.intersect (s3, wa = True, wb = True, F = 1)) 1 10 20 1 10 201 10 20 1 14 172 20 30 2 20 30
2 20 30 2 25 30 Verwenden von Bedops bin $ less answer.bed 1 5 201 10 201 10 501 14 172 20 302 20 602 25 30 Verwenden von @ bli-Code (auf Python2.7) ('1', 10, 20) ('1') , 14, 17) ('2', 20, 30) ('2', 25, 30) Warum kann ich das Intervall 1 5 20

nicht sehen?

Welches Ergebnis erzielen Sie mit `bedops --element-of`?

Bitte bringen Sie Ihre Logik- / Codierungsfragen zu Stack Overflow. Das Verhältnis Ihrer Frage zum Thema Bioinformatik ist nur zufällig.

@RobertC Wenn OP ein "Bett" -Tag hinzufügt, sieht diese Frage sofort wie eine Bioinformatik-Frage aus. Siehe auch die Antworten. OP wird hier viel eher solche Antworten erhalten. Diese Frage könnte sicherlich verbessert werden, ist aber nicht vom Thema abweichend.

Verwenden Sie einfach Bedops, wie angegeben. Die Verwendung von Wrappern für Befehlszeilentools ist selten ein Ersatz für das Erlernen der Tools.

Können Sie bitte mehr Geschichte / Kontext zu dieser Frage hinzufügen? Es sieht aus wie eine reine Programmierfrage (vermutlich, warum es als nicht zum Thema gehörend markiert wurde). Es wäre schön, wenn Sie erklären könnten, was die verschiedenen Zahlen bedeuten und warum Sie dies tun möchten.

Sie sollten aussagekräftigere Namen für Ihre Variablen verwenden. Dies würde das Lesen des Codes für andere, aber auch für Sie erleichtern.

Anscheinend möchten Sie die Bereiche von "s3.txt" ("getestete Bereiche"), die in einem Bereich in "s4.txt" ("enthaltende Bereiche") enthalten sind. In diesem Fall liegt Ihr Fehler vermutlich im Vergleich der Start- und Endkoordinaten. Man beachte "t_start" und "t_end" die Koordinaten des getesteten Bereichs und "c_start" und "c_end" die Koordinaten des enthaltenen Bereichs. Was Sie wollen, ist `c_start <= t_start und t_end <= c_end`.

Ich habe Ihre Frage bearbeitet, um aussagekräftigere Variablennamen zu verwenden, und ich habe auch "1 5 20" aus der erwarteten Ausgabe entfernt: Wenn ich das richtig verstanden habe, ist dies nicht das, was Sie wollen, da dies in keinem der in "s4" definierten Bereiche enthalten ist .txt`

Ich kann keine Antwort posten, da Ihre Frage "in der Warteschleife" ist, aber hier ist eine (hoffentlich) korrigierte Version Ihres Codes mit geringfügigen Verbesserungen des Codierungsstils und Verwendung von python3: http://paste.ubuntu.com/24915950 /Ich hoffe das hilft.

ohh ich war ein bisschen weg, so viele vorschläge danke euch allen. Ich werde meinen Beitrag bearbeiten, sobald ich jeden Ihrer Vorschläge durchgegangen bin

@AlexReynolds hat eine Antwort hinzugefügt

@bli Vielen Dank für die Bereinigung Code hinzugefügt Antwort

Sie sagen, "welche Koordinaten aus meiner Datei s3 auf oder zwischen meinen Referenzkoordinaten in s4 liegen". Wenn ich das richtig interpretiere, bedeutet dies, dass Sie auch teilweise Überlappungen akzeptieren, nicht nur vollständige Einschlüsse. Dann sollte die gewünschte Ausgabe alle Bereiche in s3 sein und nicht die eingeschränkte Liste, die ich fälschlicherweise korrigiert habe.

@novicebioinforesearcher Es sieht so aus, als ob `bedops` Ihr fehlendes Intervall finden konnte. Wenn Sie sich mit Strangbezeichnungen in der sechsten Spalte befassen müssen (gemäß BED-Spezifikation), können Sie eine BED-Datei nach Strang über "awk" $ 6 == "+" "in.bed> in.forward.bed" und "awk" aufteilen '$ 6 == "-"' in.bed> in.reverse.bed` und führen Sie dann Set-Operationen für jede der Strang-Split-Dateien aus. Wenn Sie am Ende eine Datei rekonstruieren müssen, verwenden Sie `bedops -u`, um eine Multiset-Vereinigung aller eingegebenen BED-Dateien durchzuführen.

#! / usr / bin / env python3ref_intervals = [] mit open ("s4.txt", "r") als f: für Zeile in f: (chr, start, end) = line.strip (). split ("\ t") ref_intervals.append ((chr, int (start), int (end))) exp_intervals = [ ] mit open ("s3.txt", "r") als f: für Zeile in f: (chr, start, end) = line.strip (). split ("\ t") exp_intervals.append ((chr, int (start), int (end))) enthalten = [] überlappend = [] für (r_chr, r_start, r_end) in ref_intervals: für (e_chr, e_start, e_end) in exp_intervals: wenn e_chr == r_chr: wenn r_start < = e_start < r_end oder r_start < e_end < = r_end: overlapping.append ((e_chr, e_start, e_end)) wenn r_start < = e_start < e_end < = r_end: enthält "\ t") print ("enthalten") für (chr, start, end) in enthalten: print (chr, start, end, sep = "\ t")

Unterprozess importieren ... try: result = subprocess.check_output ("bedops --element-von 1% s% s >% s"% (set_a_fn, set_b_fn, answer_fn ), shell = True) außer subprocess.CalledProcessError als err: erhöhe SystemExit ("Bedops konnten nicht ausgeführt werden \ n") # mache Sachen mit 'result'

Pandas als pd aus importieren StringIOimport pyranges als prc1 = "" 1 10 201 5 202 20 302 25 301 10 502 20 601 14 17 "" c2 = "" 1 10 202 20 30 "" column = "Chromosom Start End" .split () df1 = pd.read_table (StringIO (c1), sep = "\ s +", header = Keine, Namen = Spalten) df2 = pd.read_table (StringIO (c2), sep = "\ s +", header = Keine, Namen = Spalten) gr1 = pr.PyRanges (df1) gr2 = pr.PyRanges (df2) print (gr1.intersect (gr2, how = "Containment"))

+ -------------- + ----------- + ----- ------ + | Chromosom | Start | Ende || (Kategorie) | (int32) | (int32) || -------------- + ----------- + ----------- || 1 | 10 | 20 || 1 | 14 | 17 || 2 | 20 | 30 || 2 | 25 | 30 | + -------------- + ----------- + ----------- + Unstranded PyRanges-Objekt hat 4 Zeilen und 3 Spalten aus 2 Chromosomen. Zum Drucken wurden die PyRanges nach Chromosomen sortiert.

Bezüglich Ihres Python-Codes