apraga/org: notes/biblio/Barbitoff2022.org

:PROPERTIES:
:ID:       5cc49977-98bc-4dfc-9d55-57617fa0755a
:END:
#+title: Barbitoff2022

La plus récente
- 7 patients de référence (exome + genome) GIIAB: trio NA1287, 91 et 92, trio chinois, trio ashkenazi
- genome + exome pour chaque
- exome : agilent sreselect v5, 100-200x
- Mais l'alignement se fait sur GRCh37...
- différents filtre : 3 pour haplotypecaller, 2 pour octopus (standard, random forest)
Aligneurs testé :
- BWA MEM v.0.7.17
- Bowtie2 v.2.3.5.1 [6],
- Novoalign v. 4.02.01
- Isaac
Variant caller
  FreeBayes v. 1.3.1 [35], GATK HaplotypeCaller (HC) v. 4.2.3 [8, 9], Strelka2 v. 2.9.10 [13], DeepVariant v. 1.2.0 [10], Clair3 v. 0.1-r8 [25], and Octopus v. 0.7.4 [26].
**** Résultats
Comparatifs
- régions CDS: appel de variant plus important que aligner (confirmé par  test statstique)
- bwamem + deepvariant = meilleur score F1
- deepvariant = meilleur quelque soit aligneur SNP et indel
- GATK bonne performance seulement avec filtre CNNScorevVariant CNN reference-based (autre chois = reads bases et hard filtering mais plus mauvais )
- mettre figure 1.a
- éviter bowtie2 comme aligneur, freebayes comme appel de variant
- précision semblable quelque soit le pipeline mais variabilité recall => non lié aux faux positifs mais aux faux négatifs (par définition...)
- effet filtre sur variant dépend du type de données et aligneur
Facteurs
- exomes ~ genome pour SNP mais plus mauvais performance pour indel
  - test sur régions au-delà des CDs (+/- 50bp): diminution faible pour SNP et forte diminution pour indel en précision (meme à partir de 25pb)
  - faible couverture = diminution performance mais aussi pour certains appels de variants en cas de couverture très importante ! (GTAK + filtre réseau de neurone)
  - GC : pas d'effet très important mais si fortement enrichi/pauvre en GC, sera mal couver par exome. Ici: confirmé pour fortement enrichi en GC
  - régions difficile à mapper : algorithmes basé sur haplotype (gatk, freebayes) y sont moins sensible, contrairement à des modèles basés sur le machine learning (deepvariant)
Patients hors GIAB
- métrique: concordance des appels de variants
- ont vérifié que c'était bien le cas : les meilleurs sont GIAB sont bien concordants, les plus mauvais sont les moins concordants. Ont vérifié aussi que FN = manqué par un seul outils mais FP = seulement rapporté par un autils
- 3 individus nigerien (Yoruba) (genome), 3 russes (exome)
- résultats identique