:PROPERTIES:
:ID:       f0084af1-50cd-4222-81f4-f89f67aed213
:END:
#+title: Poplin2018

Motivation
#+begin_quote
the widely used GATK uses logistic regression to model base errors, hidden Markov mod- els to compute read likelihoods, and naive Bayes classification to identify variants, which are then filtered to remove likely false positives using a Gaussian mixture model with hand-crafted features capturing common error modes5."
#+end_quote
GATK donc orienté Illumina mais algorithmes difficiles à porter sur autres technologies

Algorithme = deep learning
1. SNP et indel candidats avec techniques classiques (sensible mais peu spécifique) [comparaison à la réference ?]
2. Probabilité à chaque locus en utilisant les pileup de la référénce et des reads autour de cette position (cf figure \ref{fig:deepvariant})
3. Avec le modèle entrainé, donne les variants (entrainement du model se fait sur sur génotype connu -> version "fixée"

GATK supose que les erreurs de reads sont indépendantes. Le réseau de neurones (convolutional) prend en compte les dépendences complexes donc plus performant