:PROPERTIES: :ID: 95251dd4-5713-4c94-b774-11659b701afe :END: #+title: Hwang2019 Suite de Hwang 2015 Aligneur + appel de variant mais utile surtout pour appel de variant Méthodes - 70 combinaisons: 7 aligneurs avec 10 appel de variant - 1 génome européen et 1 african - variants de référénces : - GIAB et platinum genomes pour NA12878 - 1000 genompes pour les 2 - distance de Jaccard [fn:2] entre 2 pipeline sur 4 figures (SNP et indel, NA12878 et NA19240 respectivement) - avec les référence donc 70 +1 ou +3 **** Résultats - haplotypecaller est assez groupé (probablement car réaligne localement) - plus de différence entre le type de variant (SNP vs indel) qu'entre les individus - *majorité des variants sont appelé par plupart des pipeline* - discordance expliquée par la profondeur ? - pas pour SNP + indel de NA12878 (plus important pour les concordances !). Idem pour NA19240 sauf pour indel homozygote - discordance expliquée par la balance allélique ? - oui pour les indels. Non SNP (supérieur pour SNP Cconcordant sur NA19240) - plus de discordance entre les pipeline pour patient NA19240: analyse statistque : - minor allele frequnce++, impact fonctionnel prédit, éléments éléments, contenu GC, profondeur, mapping quality - plus de discordance pour faible fréquence (MAF[fn:1] 0.5-5%), variants rares (MAF < 0.5) - plus de discordance pour variants avce un impact fonctionnel important prédit par VEP - zone répétes effet déléter pour SINE, simple repeat, low complexité. Notamment indel dans zone répétes par rapport aux indel. - GC influence la concordance (dans quel sens ?) - profondeur et MAPQ des short reads influence significativement : - régions bien couverte ont une concordance x 1.08-1.28 [logicque] - MAPQ : x1.76 - Selon la référence : - 1000 genomes: - glftool : bonne sensibilité et VPP pour SNP - haplotypecaller : bonne performance (?) pour indel - GIAB et platinum genome : - haplotypecaller : bonne sensibilité et VPP (sauf pour SNV platinum) - différence due à la région génomique ? GIAB = 90% du génome et 97% pour platinum. 1000 genome : tout -> plus de variabilité dans les performances - combinaison d’appel de variant = performance supérieure dans la bibilé. Test ici : - méthode: variants filtré - soit par "call condordance" (i.e appelé par plusieurs pipeline ?) - soit par 6 facteurs qui l’influent : MAF, impact fonctionnel prédit, éléments répété, contenu GC, profondeur, MAPQ (sélection sur régression logistique) - résultat: - pas de vrai gain de performance pour GIAB et platinum (sauf SNV de platinum). - Pour GIAB et indel platinum = haplotypecaller a une performance supérieure ou égale que les ensemble. - 1000 genome : ensemble de pipeline = meilleur. - Le meilleur pipeline solo = gsnap + glfsingle (2 samples) - pour indel : bwa mem + haplotypcaller (2 samples) - -> certains pipeline exploitent les régions hors "zones de confiance" de GIAB **** Conclusion - *influence appel de variant semble > aligneur* (mais peut être lié aux différentes options) - discordance pour variants rare et nouveau et pour SNP rare - probable diminution des performances pour population non-européennes (plus de SNP et indel rare) - *BWA + haplotypecaller = VPP et bonne sensibilité pour NA12878* - limitations - comparaison de vCF = left-normalized seulement (différentes représentation d’un variant complexe non considérée) - pas el même séquencage pour les 2 patients (profondeur 49 et 72, short-read length 101 vs 250) - pas d’optimisation des paramètre *BWA-mem + haplotype caller n’est pas inférieur à une combinaison de pipeline pour la plupart des région* Conclusion: méthode solide Apport: