:PROPERTIES: :ID: 1505e35d-b84a-4695-ba19-74c96c767f73 :END: #+title: Kumaran2019 **** Méthode : 20 pipelines - 4 appels de variants: deepvariant, samtools, freebayes, gatk - 5 aligneurs: bowtie, bwa, novoalign, SOAP,mosaik - GIAB: NA12878, NA24385, NA24631 - données simulées avec ART - GIAB 37 *et 38* pour NA12878 **** Biblliography En désaccord avec article plus récents apparements: #+begin_quote SAMtools is best for Ion Proton data [6], and GATK is best for Illumina data [7]. #+end_quote #+begin_quote They have also shown low concordance when examining the same set of sequencing data. Thus the accuracy of the variant callers is still not adequate #+end_quote #+begin_quote Applying multiple tools can result in more misleading output #+end_quote #+begin_quote It has also been reported that read aligners influence the accuracy of variant de- tection #+end_quote **** Résultats NA12878 (réel + simulé, 37 + 38): - 4 meilleurs sont BWA_DeepVariant, Novoa- lign_DeepVariant, BWA_SAMtools and Novoalign [F-score en 0.97 et 0.99] - pipelines basés sur deepvariant > GATK - indel: bwa+deep variant et novoalign+deep variant sont les meilleurs, puis gatk+bwa et gatk+novoalign - profondeur: - profil similair SNV et indel. - plupart des SNVs détectés à 150x - Genotype quality (GQ): meilleure preformance avec augmentation GQ mais deepvariant + {bwa, novoalign} ont de bonnes performances même bas GQ - heterozygote/homozygote supérieur pour SNV que pour indel (1.6-1.5 vs 1.2-1.3) - transitio/transversion: 3.4-3.3[fn:4] - détection indel : deepvariant et gatk avec bwa/novoalign mais attention variable selon la longeur (échec de détection certaines longeur) - amélioration des performances en fusionnant des 4 meilleurs pipeline : 99-98% précision pour SNs, 96-98% pour indel - faux négatifs : 0.5-1.5% (SNV) ou 0.5-4% pour indel. Ils sont dans des zones avec profondeur < 30x et < 10GQ - NA24385 and NA24631 = F-score identique, deevariant reste le meilleur avec bwa/novoalign **** discussion : qualité : deepvariant > samtools > gatk - indel moins performant: données d’exome (loupe grand indel ?) - gold standard na12878: deepvariant > autre (contradiction avec bibliograhie) - Influence aligneur : - bwa = temps d’exécution, mémoire et précision sont équilibré - novo align = lent et consommateur ed mémoire mais mappe mieux - appel de variant a plus d’impact - meilleure performance en gRCh38 que 37 (plus de vrai positifs ?). Faux négatifs : -8%) et -20% pour SNV et indel respectivement **** Problème ART ne simule que du génome. Ils ont du restreinte le fasta (mais non précisé dans le github ...) **** Données - SRR pour données d'exomes - Scripts pour les différents pipeline en bash : https://github.com/bharani-lab/WES-Benchmarking-Pipeline_Manoj