:PROPERTIES: :ID: 5b83e258-f4ad-403b-a10f-74b8fc5184be :END: #+title: Auwera2020 Tutorial + présentation des outils. Référence recommandées par GATK *** DONE Best practice CLOSED: [2023-11-22 Wed 23:03] **** MarkDuplicates Duplicats = - soit lié à l'amplification PCR lors de la préparation (si elle est utilisées) - version récente : amplification utiles donc les duplicats vont venir de problme optiques (1 cluster lu comme 2 sur illumina donc traité comme 2 reads) - stratégie - cf figure 6.2 : indel ou reads plus long = ne correspondent pas mais softclip oui - groupe reads et pour chaque groupe marque le read qui a la meilleure qualité de séquencage. Les autres reads sont marqué comme "à ignorer" NB: étape coûteuse. version parallélisée avec MarkDuplicatesSpark (même sur architecture non spark) mais nécessite de nombreuses écriture/lectures. Voir https://gatk.broadinstitute.org/hc/en-us/articles/360037224932-MarkDuplicatesSpark **** Recalibration base qualité score - Détection et correction 'erreurs systématiques dans les score de qualité de paires de base (données par séquences). - Biais possibles : durant préparation de libraire, séquencage, défaut de la flowcell ou du séquenceur - 1. Récupération de toutes les statistiques "covariées" des bp - 2. Détermination d'un modèle statistique: voir aussi https://gatk.broadinstitute.org/hc/en-us/articles/360035890531 - ! dépend de la librairie et du séquenceur donc à déterminer à chaque fois...A - nécessite des positions de SNPs connus pour les exclure (typiquement dbSNP) - calculé à partir du group de reads, quality score, cycle machine et base + base précédente - 3. Recalibration *** Haplotypecaller