:PROPERTIES:
:ID:       5071e292-550c-483d-858e-0674a84184a2
:END:
#+title: Hwang2015

Article précédant hwang2019
Différents pipeline sur données d’exome NA12878 (3 aligneur et 4 appels de variants)

Context : résultat différent pour diffents outils d’appels de variant
**** Méthodes
- NA1287 sur Hiseq200 (7 données), Hiseq2500 (4 données)  et ion proton (1 seul):

| HiSeq2000 | SRR1611178      | SeqCap EZ Human Exome Lib v3.0 | WES |  79.93x |
| HiSeq2000 | SRR1611179      | SeqCap EZ Human Exome Lib v3.0 | WES |  79.84x |
| HiSeq2000 | SRR292250       | SeqCap EZ Exome SeqCap v2      | WES | 116.06x |
| HiSeq2000 | SRR515199       | SureSelect v4                  | WES | 298.45x |
| HiSeq2000 | SRR098401       | SureSelect v2                  | WES | 116.84x |
| HiSeq2500 | SRR1611183      | SeqCap EZ Human Exome Lib v3.0 | WES | 129.94x |
| HiSeq2500 | SRR1611184      | SeqCap EZ Human Exome Lib v3.0 | WES | 111.90x |
| HiSeq2000 | ERR194147       | UCSC Known gene                | WGS |  45.68x |
| HiSeq2000 | SRX485062       | UCSC Known gene                | WGS |  56.60x |
| HiSeq2500 | SRX515284       | UCSC Known gene                | WGS |  56.87x |
| HiSeq2500 | SRX516752       | UCSC Known gene                | WGS |  43.61x |
| IonProton | NA12878_combine | UCSC Known gene                | WGS |    9.87 |
|           |                 |                                |     |         |
- alignement sur GRCh37
- vcflib pour normalisation
- restriction aux zones de capture pour données d’exomes
- comparaison avec GIAB: precision et recall calculé "à la main" (article avant hap.py)
- aire sous la courbe precision-recall (!= aire ROC)
- 13 pipeline : combinaison
  - aligneur : Bwa-mem, bowtie2, novoalign
  - appel de variant : haplotypcaller, samtools, freebays, ioproton variant caller
**** Résultats
CLOSED: [2023-10-23 lun. 13:33]
- Appel de variant : variabilité suivant les échantillons...
- Impact de l’aligneur et appel de variant : appel de variant >> alignement pour SNP et indel (surtout indel): average standard deviation: 3.46e-3 (aligneur) and 4.02e-3 (appel de variant) for SNPs and 0.72e-2 (aligneur) and 7.2e-2 (appel de variant)
- illumina:
  - SNP : samtools + bwa-mem
  - indel : haplotypecaller + n’importe quel aligneur
- ion proton : samtools
- concordance: metter figure 3
  https://www.nature.com/articles/srep17875/figures/3
  - illumina 92% (intersection des 3 appels): explication possible: différence de version, pipeline
  - variabilité sur données 82-97% opevrlap !
- biais:
  - ignorer allèle de référence (hétérozygote considéré comme homozygote): 7290/19851 -> freebayes sur illumina
  - ignorer allèle alternative  (homozygote considéré comme hétérozygote ): 9917/19851 -> haplotypecaller
  - autre: 2644
  - donc attention aux hétérozygote avec haplotypecaller
- Filtre sur la qualité (qualité < 20) peut impacter la performance. HaplotypeCaller ne rende que les > 30
- Profondeur n’affecte pas les résultats (significativement)