:PROPERTIES: :ID: 5cc49977-98bc-4dfc-9d55-57617fa0755a :END: #+title: Barbitoff2022 La plus récente - 7 patients de référence (exome + genome) GIIAB: trio NA1287, 91 et 92, trio chinois, trio ashkenazi - genome + exome pour chaque - exome : agilent sreselect v5, 100-200x - Mais l'alignement se fait sur GRCh37... - différents filtre : 3 pour haplotypecaller, 2 pour octopus (standard, random forest) Aligneurs testé : - BWA MEM v.0.7.17 - Bowtie2 v.2.3.5.1 [6], - Novoalign v. 4.02.01 - Isaac Variant caller FreeBayes v. 1.3.1 [35], GATK HaplotypeCaller (HC) v. 4.2.3 [8, 9], Strelka2 v. 2.9.10 [13], DeepVariant v. 1.2.0 [10], Clair3 v. 0.1-r8 [25], and Octopus v. 0.7.4 [26]. **** Résultats Comparatifs - régions CDS: appel de variant plus important que aligner (confirmé par test statstique) - bwamem + deepvariant = meilleur score F1 - deepvariant = meilleur quelque soit aligneur SNP et indel - GATK bonne performance seulement avec filtre CNNScorevVariant CNN reference-based (autre chois = reads bases et hard filtering mais plus mauvais ) - mettre figure 1.a - éviter bowtie2 comme aligneur, freebayes comme appel de variant - précision semblable quelque soit le pipeline mais variabilité recall => non lié aux faux positifs mais aux faux négatifs (par définition...) - effet filtre sur variant dépend du type de données et aligneur Facteurs - exomes ~ genome pour SNP mais plus mauvais performance pour indel - test sur régions au-delà des CDs (+/- 50bp): diminution faible pour SNP et forte diminution pour indel en précision (meme à partir de 25pb) - faible couverture = diminution performance mais aussi pour certains appels de variants en cas de couverture très importante ! (GTAK + filtre réseau de neurone) - GC : pas d'effet très important mais si fortement enrichi/pauvre en GC, sera mal couver par exome. Ici: confirmé pour fortement enrichi en GC - régions difficile à mapper : algorithmes basé sur haplotype (gatk, freebayes) y sont moins sensible, contrairement à des modèles basés sur le machine learning (deepvariant) Patients hors GIAB - métrique: concordance des appels de variants - ont vérifié que c'était bien le cas : les meilleurs sont GIAB sont bien concordants, les plus mauvais sont les moins concordants. Ont vérifié aussi que FN = manqué par un seul outils mais FP = seulement rapporté par un autils - 3 individus nigerien (Yoruba) (genome), 3 russes (exome) - résultats identique