:ID:       1505e35d-b84a-4695-ba19-74c96c767f73
#+title: Kumaran2019

**** Méthode :
20 pipelines
- 4 appels de variants: deepvariant, samtools, freebayes, gatk
- 5 aligneurs: bowtie, bwa, novoalign, SOAP,mosaik
- GIAB: NA12878, NA24385, NA24631
- données simulées avec ART
- GIAB 37 *et 38* pour NA12878
**** Biblliography
En désaccord avec article plus récents apparements:
SAMtools is best for Ion Proton data [6], and GATK is best for Illumina data [7].
They have also shown low concordance when examining the same set of sequencing data. Thus the accuracy of the variant callers is still not adequate
Applying multiple tools can result in more misleading output
It has also been reported that read aligners influence the accuracy of variant de- tection
**** Résultats
NA12878 (réel + simulé, 37 + 38):
- 4 meilleurs sont BWA_DeepVariant, Novoa- lign_DeepVariant, BWA_SAMtools and Novoalign [F-score en 0.97 et 0.99]
- pipelines basés sur deepvariant > GATK
- indel: bwa+deep variant et novoalign+deep variant sont les meilleurs, puis gatk+bwa et gatk+novoalign
- profondeur:
  - profil similair SNV et indel.
  - plupart des SNVs détectés à 150x
- Genotype quality (GQ): meilleure preformance avec augmentation GQ mais deepvariant + {bwa, novoalign} ont de bonnes performances même  bas GQ
- heterozygote/homozygote supérieur pour SNV que pour indel (1.6-1.5 vs 1.2-1.3)
- transitio/transversion: 3.4-3.3[fn:4]
- détection indel : deepvariant et gatk avec bwa/novoalign mais attention variable selon la longeur (échec de détection certaines longeur)
- amélioration des performances en fusionnant des 4 meilleurs pipeline : 99-98% précision pour SNs, 96-98% pour indel
- faux négatifs : 0.5-1.5% (SNV) ou 0.5-4% pour indel. Ils sont dans des zones avec profondeur < 30x et < 10GQ

-  NA24385 and NA24631 = F-score identique, deevariant reste le meilleur avec bwa/novoalign

**** discussion : qualité : deepvariant > samtools > gatk
- indel moins performant: données d’exome (loupe grand indel ?)
- gold standard na12878: deepvariant > autre (contradiction avec bibliograhie)
- Influence aligneur :
  - bwa = temps d’exécution, mémoire et précision sont équilibré
  - novo align = lent et consommateur ed mémoire mais mappe mieux
- appel de variant a plus d’impact
- meilleure performance en gRCh38 que 37 (plus de vrai positifs ?). Faux négatifs : -8%) et -20% pour SNV et indel respectivement
**** Problème
ART ne simule que du génome. Ils ont du restreinte le fasta (mais non précisé dans le github ...)

**** Données
- SRR pour données d'exomes
- Scripts pour les différents pipeline en bash : https://github.com/bharani-lab/WES-Benchmarking-Pipeline_Manoj