:PROPERTIES: :ID: 817481c5-3bca-4044-8319-cdf19daf6301 :ROAM_REFS: @Chen2019 #+title: Chen2019 :END: Apport: plusieurs séquencage de NA12878 BGI+ illumina **** Méthodes - NA12878 sur plusieurs séquenceur (exome + genome) | Sequencing Samples | Type | Bases (Gbp) | Read (x10^6) | Clean rare | >Q20 | >Q30 | GC content | Mean coverage | | BGISEQ500 | WES | 29.41 | 294.30 | 0.41% | 96.72% | 89.14% | 49.75% | 328.49X | | MGISEQ2000 | WES | 16.34 | 163.55 | 0.25% | 98.18% | 92.08% | 49.71% | 129.40X | | HiSeq4000 | WES | 41.93 | 283.70 | 4.46% | 97.36% | 93.01% | 50.63% | 395.17X | | NovaSeq | WES | 25.88 | 178.87 | 2.25% | 95.33% | 92.67% | 49.73% | 241.52X | | BGISEQ500 | WGS | 126.86 | 1270.02 | 1.76% | 93.73% | 83.33% | 41.76% | 41.03X | | MGISEQ2000 | WGS | 137.36 | 1374.87 | 0.21% | 96.17% | 88.19% | 41.76% | 45.13X | | HiSeq4000 | WGS | 191.00 | 1276.10 | 8.25% | 95.90% | 90.11% | 41.69% | 58.00X | | NovaSeq | WGS | 98.30 | 657.45 | 1.28% | 95.89% | 93.86% | 41.61% | 28.96X | | HiSeq Xten | WGS | 134.00 | 894.58 | 7.29% | 94.50% | 87.63% | 40.71% | 38.93X | >Q20 = moins de 1% d'erreur. >Q30 = moins de 1‰ - 1 aligneur (bwa [mem non spécifiqu]) et 3 appel de variant : haplotypcaller, strelka, samtools varscan2 - filtering et trimming **** Résultat - qualité : - exome 95% avec moins de 1% d'erreur et 89% avec moins de 1‰ - genome 92% et 93% respectivement - profondeur : | | | exome | genome | | BGI | bgiseq500 | 328X | 41x | | BGI | mgiseq2000 | 129 | 45x | | illumina | hiseq | 395 | 58 | | | novaseq | 241 | 28.96 (*) | (*) 92.1% > 20x - Appel de variant - Exome: - comparaison entre pipeliness - meilleur précision quelque soit le seuil de recall pour exome. Mais en regardant la figure, GATK4 identique ou légèrement meilleur sur indel sur ihseq400 et novaseq (NB: l'article parle d'un "weaker recall" pour SK par rapport à GATK4 ??) - F-score : divergences importance (0.75-0.91) - SNP: SK > GAK > sv quelque soit la plateforme. - indel : SK > autre pour une plateforme donnée. Pour BIG, Sk est meilleur mais GATK ~ SK - très bonne concordance : - SNP : > 97.13% des variants détectés par 10 combinaisons (90.92% retrouvé par les 12 combinaisons) - meilleur score : novaseq + samtools varscan. Pire = hiseq400-SK2 - indel : > 93.2% indel détecté par au moins 10 combinaisons - idem (meilleur score : novaseq + samtools varscan. Pire = hiseq400-SK2) - temps d'exécution : - méthode: downsampling -> 100x puis test avec donwnsampling 20x, 40x, 60X et 80x - 88GB mémoire, 24 cpus - résultat: strelka2 plus rapide que GATK (facteur 6-8 selon séquenceur) et que SV (facteur 67) - Genome - comparaison entre pipelines - SK2 = meilleur précision. - performance similaire exome - Pour SNP, bonne performance pour toutes les combinaison. SK > GATK pour gbi et illumina (F-score). - indel : gatk et sk2 ont meilleur performance. Illumina: SK2 > gatk, SV. Idem BGI (f-score) - Conclusion : SK2 meilleur pour bg/illumina sur exomegenome - très bonne concordance: - 94.22% SNV détecté par au moins 10 combinaison - 90.63% indel détecté par au moins 13 (plus grande divergence, comme pour les exomes) - temps d'exécution (même méthode et même config): sk2 42-45x plus rapide que GATK et 62-69x que SV (illumina-bgi) Conclusion: recommande strelka2