:PROPERTIES:
:ID:       5b83e258-f4ad-403b-a10f-74b8fc5184be
:END:
#+title: Auwera2020

Tutorial + présentation des outils. Référence recommandées par GATK
*** DONE Best practice
CLOSED: [2023-11-22 Wed 23:03]
**** MarkDuplicates
Duplicats =
- soit lié à l'amplification PCR lors de la préparation (si elle est utilisées)
- version récente : amplification utiles donc les duplicats vont venir de problme optiques (1 cluster lu comme 2 sur illumina donc traité comme 2 reads)
- stratégie
  - cf figure 6.2 : indel ou reads plus long = ne correspondent pas mais softclip oui
  - groupe reads et pour chaque groupe marque le read qui a la meilleure qualité de séquencage. Les autres reads sont marqué comme "à ignorer"
NB: étape coûteuse. version parallélisée avec MarkDuplicatesSpark (même sur architecture non spark) mais nécessite de nombreuses écriture/lectures. Voir
https://gatk.broadinstitute.org/hc/en-us/articles/360037224932-MarkDuplicatesSpark
**** Recalibration base qualité score
- Détection et correction 'erreurs systématiques dans les score de qualité de paires de base (données par séquences).
- Biais possibles : durant préparation de libraire, séquencage, défaut de la flowcell ou du séquenceur
- 1. Récupération de toutes les statistiques "covariées" des bp
- 2. Détermination d'un modèle statistique: voir aussi https://gatk.broadinstitute.org/hc/en-us/articles/360035890531
  - ! dépend de la librairie et du séquenceur donc à déterminer à chaque fois...A
  - nécessite des positions de SNPs connus pour les exclure (typiquement dbSNP)
  - calculé à partir du group de reads, quality score, cycle machine et base + base précédente
- 3. Recalibration

*** Haplotypecaller