Keine Variante mit GATK 4.0 HaplotypeCaller gefunden

Ammar Sabir Cheema

2018-07-04 00:49:04 UTC

view on stackexchange narkive permalink

Ich mache einen Variantenaufruf für RNA-seq-Datensätze aus Weizen, der hexaploide ist. Die BAM-Dateien (Binary Alignment) wurden mit STAR Version 2.6.0c erstellt und der Variantenaufruf wurde mit GATK 4.0 HaplotypeCaller durchgeführt. Die gesamte Pipeline ist wie folgt :

Ausrichtung durch STAR 2.6.0c :

  STAR --runMode alignReads --runThreadN 20 --outSAMtype BAM SortedByCoordinate --sjdbOverhang 100 --genomeDir Weizen --readFilesIn G1_cleaned_R1.fastq G1_cleaned_R2.fastq --sjdbGTFtagExonParentTranscript Wheat.gff3

Dann wurde AddOrReplaceReadGroups von picard verwendet mit Standardeinstellungen:

  AddOrReplaceReadGroups \ I = input.bam \ O = Read_groups_added.bam \ RGID = 4 \ RGLB = lib1 \ RGPL = illumina \ RGPU = unit1 \ RGSM = 20

Schließlich wurde GATK 4.0 haplotypeCaller angewendet:

  gatk HaplotypeCaller --native-pair-hmm-threads 28 \ -I Read_groups_added.bam -R Weizen_ref.fa -O fina l.vcf

Der Befehl wurde wie folgt erfolgreich ausgeführt:

  20: 33: 01.018 INFO ProgressMeter - TGACv1_scaffold_470693_5DS: 301 102.2 45108670 441320.020: 33: 11.039 INFO ProgressMeter - TGACv1_scaffold_724195_U: 301 102,4 45.111.270 440625,520: 33: 21,072 INFO ProgressMeter - TGACv1_scaffold_724579_U: 301 102,5 45.113.880 439932,420: 33: 31,108 INFO ProgressMeter - TGACv1_scaffold_248869_3B: 301 102,7 45.116.440 439240,920: 33: 41,143 INFO ProgressMeter - TGACv1_scaffold_248918_3B: 301 102,9 45.118.990 438551,620: 33 : 51.150 INFO ProgressMeter - TGACv1_scaffold_306137_4AL: 301 103.0 45121550 437866.720: 34: 01.176 INFO ProgressMeter - TGACv1_scaffold_193559_2DS: 301 103.2 45124100 437182.5
20: 34: 03,134 INFO HaplotypeCaller - 100.112.154 read (s) gefiltert, durch: ((((((((MappingQualityReadFilter UND MappingQualityAvailableReadFilter) UND MappedReadFilter) UND NotSecondaryAlignmentReadFilter) UND NotDuplicateReadFilter) UND PassesVendorQualityCheckReadFilter) UND NonZeroReferenceLengthAlignmentReadFilter) UND GoodCigarReadFilter) UND WellformedReadFilter) 100.112.154 read (s) gefiltert nach: ((((((MappingQualityReadFilter AND MappingQualityAvailableReadFilter) AND MappedReadFilter) AND NotSecondaryAlignmentReadFilter) AND NotDuplicateReadFilter) AND PassedVendorQualityCheckReadFilter) MappingQualityReadFilter UND MappingQualityAvailableReadFilter) UND MappedReadFilter) UND NotSecondaryAlignmentReadFilter) UND NotDuplicateReadFilter) UND PassesVendorQualityCheckReadFilter) UND NonZeroReferenceLengthAlignmentReadFilter MappingQualityAvailableReadFilter ND) UND MappedReadFilter) UND NotSecondaryAlignmentReadFilter) UND NotDuplicateReadFilter) UND PassesVendorQualityCheckReadFilter) 100112154 Lese (n) gefiltert nach: ((((MappingQualityReadFilter UND MappingQualityAvailableReadFilter) UND MappedReadFilter) UND NotSecondaryAlignmentReadFilter) UND NotDuplicateReadFilter) 100112154 Lese (n) gefiltert nach: (( (MappingQualityReadFilter UND MappingQualityAvailableReadFilter) UND MappedReadFilter) UND NotSecondaryAlignmentReadFilter) 100112154 Lese (n) gefiltert nach: ((MappingQualityReadFilter UND MappingQualityAvailableReadFilter) UND MappedReadFilter) 100112154 Lese (n) gefiltert nach: (MappingQualityReadFilter UND MappingQualityAvailableReadFilter) 21066679 Lese (n) gefiltert nach: MappingQualityReadFilter 79045475 Lesevorgänge gefiltert nach: MappingQualityAvailableReadFilter 20: 34: 03.134 INFO ProgressMeter - TGACv1_scaffold_725922_U: 301 103.2 45124592 437049.1
20: 34: 03.134 INFO ProgressMeter - Durchlauf abgeschlossen. Verarbeitete 45124592 Gesamtregionen in 103,2 Minuten.20: 34: 04.749 INFO VectorLoglessPairHMM - Zeitaufwand für die Einrichtung des JNI-Aufrufs: 0.020: 34: 04.749 INFO PairHMM - Gesamtberechnungszeit in PairHMM computeLogLikelihoods (): 0.020: 34: 04.749 INFO SmithW Rechenzeit in Java Smith-Waterman: 0,00 Sek. 20: 34: 04,749 INFO HaplotypeCaller - Motor abstellen [3. Juli 2018 20:34:04 PKT] org.broadinstitute.hellbender.tools.walkers.haplotypecaller.HaplotypeCaller erledigt. Verstrichene Zeit: 103,99 Minuten.Runtime.totalMemory () = 4789370880

Die generierte vcf-Datei, dh final.vcf, enthält jedoch keine der folgenden Varianten:

  [dellemc @ localhost bilal] $ tail final.vcf ## Contig = <ID = TGACv1_scaffold_725916_U, Länge = 500> ## Contig = <ID = TGACv1_scaffold_725917_U, Länge = 500> ## Contig = <ID = TGACv1_scaffold_725918_U, Länge = 500> ## Contig = <ID = TGACv1_scaffold_725919_U, Länge = ## 500> Contig = <ID = TGACv1_scaffold_725920_U, Länge = ## 500> Contig = <ID = TGACv1_scaffold_725921_U, Länge = ## 500> Contig = <ID = TGACv1_scaffold_725922_U, Länge = ## 500> Contig = <ID = TGACv1_scaffold_731344_7BL, Länge = 500> ## source = HaplotypeCaller # CHROM POS ID REF ALT QUAL FILTER INFO FORMAT 20

Liegt ein Fehler im Befehl haplotypeCaller vor oder fehlt ein Argument?

Alle diese Rechenzeiten von 0,0 scheinen etwas verdächtig.

Ich habe die Frage bearbeitet, um weitere Details hinzuzufügen.

@swbarnes können Sie über die Art des Verdachts berichten?