:PROPERTIES: :ID: f0084af1-50cd-4222-81f4-f89f67aed213 :END: #+title: Poplin2018 Motivation #+begin_quote the widely used GATK uses logistic regression to model base errors, hidden Markov mod- els to compute read likelihoods, and naive Bayes classification to identify variants, which are then filtered to remove likely false positives using a Gaussian mixture model with hand-crafted features capturing common error modes5." #+end_quote GATK donc orienté Illumina mais algorithmes difficiles à porter sur autres technologies Algorithme = deep learning 1. SNP et indel candidats avec techniques classiques (sensible mais peu spécifique) [comparaison à la réference ?] 2. Probabilité à chaque locus en utilisant les pileup de la référénce et des reads autour de cette position (cf figure \ref{fig:deepvariant}) 3. Avec le modèle entrainé, donne les variants (entrainement du model se fait sur sur génotype connu -> version "fixée" GATK supose que les erreurs de reads sont indépendantes. Le réseau de neurones (convolutional) prend en compte les dépendences complexes donc plus performant