:PROPERTIES:
:ID:       0d5892d4-cb09-446c-b432-350486b9ec3d
:END:
#+title: Rimmer2014

Approches classique:
1. aligner reads sur référence et examine différences -> sensibe, peu coûteux mais souvent ne se concentre que un 1 type de variant (errours sur indel/large variant), peut échoeur sur régions qui divergent fortement, plutôt pour SNP (cuteux indel)
2. Assemblage sans réference : graph (dit "de Bruijn") et on cherche dans ce graphes des polymorphosimes. Avantage: gère les régions fortement divergentes, fonctionne pour haplotype au niveau local (plutôt qu'un variant), évite alignement. Mais coûteux, moins sensible, limité sur séquence répété (quand reads sont "coupés" in k-remrs)
3.Utilisation d'échantillions apparentés : diminue faux négatif

Apport de Platypus (mais vieux...) = combine ces 3 approches
- assemblage local et génération d'haplotyage
  - variants candidats a partir des reads, de l'alignement et de base de données (polymorphismes connus)
  - graphe de Bruijn à partir des reads puis extraction des chemin qui commencent et finisshes sur la séquence -> ce sont les allèle alternative candidatet (normalement non affectés par régions répéties, bloucles)
  - répartir dans différents intervalles puis génération hapoltype (si trop d'haplotype, on ne garde que 256 les plus "prometteurs")
- estimation de la fréquence des haplotypes : matrice avc les probabilités pour chaque reads et chaque haplotype
  - alignement selon un model qui utilise des probablités d'indel et SNP à partir des scores de qualité
- les haplotypes sont "coupés" en leurs variants et on calcule génotype ed probabilité en utilisant les variants de la région (somme au niveau proba, cf https://www.quora.com/What-is-marginalization-in-probability )
- filtre sur allèle, biais de brin, qualité alignement, qualité de la paire de base, contexet, probabilité après théorème de Bayess

#+caption: Platypus algorithm [cite:@Rimmer_2014]
[file:./img/platypus.png]