:PROPERTIES:
:ID:       1505e35d-b84a-4695-ba19-74c96c767f73
:END:
#+title: Kumaran2019

**** Méthode :
20 pipelines
- 4 appels de variants: deepvariant, samtools, freebayes, gatk
- 5 aligneurs: bowtie, bwa, novoalign, SOAP,mosaik
- GIAB: NA12878, NA24385, NA24631
- données simulées avec ART
- GIAB 37 *et 38* pour NA12878
**** Biblliography
En désaccord avec article plus récents apparements:
 #+begin_quote
SAMtools is best for Ion Proton data [6], and GATK is best for Illumina data [7].
 #+end_quote
#+begin_quote
They have also shown low concordance when examining the same set of sequencing data. Thus the accuracy of the variant callers is still not adequate
#+end_quote
#+begin_quote
Applying multiple tools can result in more misleading output
#+end_quote
#+begin_quote
It has also been reported that read aligners influence the accuracy of variant de- tection
#+end_quote
**** Résultats
NA12878 (réel + simulé, 37 + 38):
- 4 meilleurs sont BWA_DeepVariant, Novoa- lign_DeepVariant, BWA_SAMtools and Novoalign [F-score en 0.97 et 0.99]
- pipelines basés sur deepvariant > GATK
- indel: bwa+deep variant et novoalign+deep variant sont les meilleurs, puis gatk+bwa et gatk+novoalign
- profondeur:
  - profil similair SNV et indel.
  - plupart des SNVs détectés à 150x
- Genotype quality (GQ): meilleure preformance avec augmentation GQ mais deepvariant + {bwa, novoalign} ont de bonnes performances même  bas GQ
- heterozygote/homozygote supérieur pour SNV que pour indel (1.6-1.5 vs 1.2-1.3)
- transitio/transversion: 3.4-3.3[fn:4]
- détection indel : deepvariant et gatk avec bwa/novoalign mais attention variable selon la longeur (échec de détection certaines longeur)
- amélioration des performances en fusionnant des 4 meilleurs pipeline : 99-98% précision pour SNs, 96-98% pour indel
- faux négatifs : 0.5-1.5% (SNV) ou 0.5-4% pour indel. Ils sont dans des zones avec profondeur < 30x et < 10GQ

-  NA24385 and NA24631 = F-score identique, deevariant reste le meilleur avec bwa/novoalign

**** discussion : qualité : deepvariant > samtools > gatk
- indel moins performant: données d’exome (loupe grand indel ?)
- gold standard na12878: deepvariant > autre (contradiction avec bibliograhie)
- Influence aligneur :
  - bwa = temps d’exécution, mémoire et précision sont équilibré
  - novo align = lent et consommateur ed mémoire mais mappe mieux
- appel de variant a plus d’impact
- meilleure performance en gRCh38 que 37 (plus de vrai positifs ?). Faux négatifs : -8%) et -20% pour SNV et indel respectivement
**** Problème
ART ne simule que du génome. Ils ont du restreinte le fasta (mais non précisé dans le github ...)

**** Données
- SRR pour données d'exomes
- Scripts pour les différents pipeline en bash : https://github.com/bharani-lab/WES-Benchmarking-Pipeline_Manoj