:PROPERTIES:
:ID:       95251dd4-5713-4c94-b774-11659b701afe
:END:
#+title: Hwang2019

Suite de Hwang 2015

Aligneur + appel de variant mais utile surtout pour appel de variant
Méthodes
- 70 combinaisons: 7 aligneurs avec 10 appel de variant
- 1 génome européen et 1 african
- variants de référénces :
  - GIAB et platinum genomes pour NA12878
  - 1000 genompes pour les 2
- distance de Jaccard [fn:2] entre 2 pipeline sur 4 figures (SNP et indel, NA12878 et NA19240 respectivement)
  - avec les référence donc 70 +1 ou +3

**** Résultats
- haplotypecaller est assez groupé (probablement car réaligne localement)
- plus de différence entre le type de variant (SNP vs indel) qu'entre les individus
- *majorité des variants sont appelé par plupart des pipeline*
- discordance expliquée par la profondeur ?
  - pas pour SNP + indel de NA12878 (plus important pour les concordances !). Idem pour NA19240 sauf pour indel homozygote
- discordance expliquée par la balance allélique ?
  - oui pour les indels. Non SNP (supérieur pour SNP Cconcordant sur NA19240)
- plus de discordance entre les pipeline pour patient NA19240: analyse statistque :
  - minor allele frequnce++, impact fonctionnel prédit, éléments éléments, contenu GC, profondeur, mapping quality
  - plus de discordance pour faible fréquence (MAF[fn:1] 0.5-5%), variants rares (MAF < 0.5)
  - plus de discordance pour variants avce un impact fonctionnel important prédit par VEP
  - zone répétes effet déléter pour SINE, simple repeat, low complexité. Notamment indel dans zone répétes par rapport aux indel.
  - GC influence la concordance (dans quel sens ?)
  - profondeur et MAPQ des short reads influence significativement :
    - régions bien couverte ont une concordance x 1.08-1.28 [logicque]
    - MAPQ : x1.76
- Selon la référence :
  - 1000 genomes:
    - glftool : bonne sensibilité et VPP pour SNP
    - haplotypecaller : bonne performance (?) pour indel
  - GIAB et platinum genome :
    - haplotypecaller : bonne sensibilité et VPP (sauf pour SNV platinum)
  - différence due à la région génomique ? GIAB = 90% du génome et 97% pour platinum. 1000 genome : tout -> plus de variabilité dans les performances
- combinaison d’appel de variant = performance supérieure dans la bibilé. Test ici :
  - méthode: variants filtré
    - soit par "call condordance" (i.e appelé par plusieurs pipeline ?)
    - soit par 6 facteurs qui l’influent : MAF, impact fonctionnel prédit, éléments répété, contenu GC, profondeur, MAPQ (sélection sur régression logistique)
  - résultat:
    - pas de vrai gain de performance pour GIAB et platinum (sauf SNV de platinum).
    - Pour GIAB et indel platinum = haplotypecaller a une performance supérieure ou égale que les ensemble.
    - 1000 genome : ensemble de pipeline = meilleur.
      - Le meilleur pipeline solo = gsnap + glfsingle (2 samples)
      - pour indel : bwa mem + haplotypcaller (2 samples)
      - -> certains pipeline exploitent les régions hors "zones de confiance" de GIAB
**** Conclusion
- *influence appel de variant semble > aligneur* (mais peut être lié aux différentes options)
- discordance pour variants rare et nouveau et pour SNP rare
  - probable diminution des performances pour population non-européennes (plus de SNP et indel rare)
- *BWA + haplotypecaller = VPP et bonne sensibilité pour NA12878*
- limitations
  - comparaison de vCF = left-normalized seulement (différentes représentation d’un variant complexe non considérée)
  - pas el même séquencage pour les 2 patients (profondeur 49 et 72, short-read length 101 vs 250)
  - pas d’optimisation des paramètre

*BWA-mem + haplotype caller n’est pas inférieur à une combinaison de pipeline pour la plupart des région*
Conclusion: méthode solide

Apport: