:PROPERTIES: :ID: 86021c82-dcb1-4c03-a7e3-0daed5511ca4 :END: #+title: Pei2021 Apport : DeepVariant et Sention non testé **** Méthodes - Alignement : BWA-MEM - Données : - germline = génome(?) - HG001...7 = Hiseq2500 avec 30x (sauf 40x pour lymphocytbe B HG001) - HG001, 2 et 5 sur pacbio à 30x - somatique hiseq2500 à 100X - Génome de référence : hs37d5 (utilisé par 1000 génomes) - 11 appel de variants - Sentieon: Germline (DNAseq, DNAscope) + somatique (TNscop, TNseq) - GATK : Germnline (haplotypecaller) + somatique (mutect2) - Deepvariant : somatique - neusomatic, varscan2 et strelka2 pour somatique NB: third generation sequening pour DNAseq (sention) et haplotypecaller (GATK) - référence : GIAB pour germline, données de synthèse pour somatique (mélange germline) - rtgtool **** Résultats (germline) ***** Next-generation sequencing - Bonne concordance pour germline: F1 > 0.99 pour SNV et > 0.98 pour indel (cohérent avec biblio) - Downsampling (2,5,10,15,30x) - 30x: score F1 identique -> 30x recommandé - < 15x précision semblable mais recall bas - Hard filter (voir [[id:17aa8b97-b6d1-465e-bcdd-f9dafa9e8f2c][Hard-filter]]): diminution légère F1 avec diminution recall 0.001% et augmentation precision 0.001 - Modification de 2 paramtre (emit_conf, call_conf): F1 identique avec diminution precision et augmentation recall - Impact BQSR ***** Third generation sequencing - SNV : bonne concordance (F1 > 0.99) avec très faible différence, en accord avec [cite:@wenger2019] - indel : variabilité importante deepvariant > dnaseq >> haplotypecaller - 0.9902, 0.9927, 0.9924 for TGS001, TGS002 and TGS005, - followed by DNAseq mode of Sentieon (0.9433, 0.9390, 0.9393), - HaplotypeCaller from GATK (V4.0.7) ) - hard filter : nette amélioration F1 score pour indel ***** Comparaison next- et third generation sequencing - 3Rd-gen : +2.13% de SNP, 3.89% indel - confirmé pour régions GIAB: high-confidenc, filtered et en dehors - Idem dans régions riches en GC e pauvre en GC - Idem dans régions hautement répétées - Confirmation manuelle sur IGV ***** Coût Test 4 CPUS: facteur 5: - dnaseq/score < 50 heures CPU , haplotypecaller ~ 150 et deepvariant ~200 (sic)