:PROPERTIES:
:ID:       9ba07741-9c02-4478-bf5e-696f010742c4
:ROAM_REFS: @lippert2017
:END:
#+title: Lippert, Christoph and Sabatini, Riccardo and Maher, M Cyrus and Kang, Eun Yong and Lee, Seunghak and Arikan, Okan and Harley, Alena and Bernal, Axel and Garst, Peter and Lavrenko, Victor and others :: Identification of individuals by trait prediction using whole-genome sequencing data

Contexte: prédictions couleurs de la peau (4 publi), couleur des eyes (morphologie faciable)

Objectif :
- à partir de données de génomes
- préduction morphologie faciale, voix, âge biologie, taille, poids IMC, coleur eyes + pea, sexe

* Méthode
- Génome 30x 1 000 individus san diago (diversité)
- prédictio visage
  - décomposition visage en élément principaux
  - idem pour 1000 "éléments principaux génomiques"  (donc éléments qui "définissent simplement" un individus en se basant la différence avec des SNPs common ? méthode non clair) avec sex, IMC e tage comme covariant
- prédiction voix
  - vecteur 100 élements pour représenter enregistrer de la voix
  - covariate : 1000 éléments princiaux généomique et sex
- âge basé sur la longeur des télomère, perte en mosia¨que du X
- taille, poids, IMC : utilisation de positions associées statistiquement (cf biblio) -> "régularisation stastitique" + ajout composant prinicap génomique + sex.
- eyes : 8 SNP
 couleur peau : 11 gène
* Résultats
- visage : assez variable mais basé sur R^2CV par pixel (visage) et élément du vecteur ->  semble assez bof
  - voix = mauvais (et la métrique est discutable
- Taille moyen, mauvais pour poids IMC
- yeuax, coleur peau correct
** 1 individus parmi N avec un phénotype, comment le retrouver ?
tous les attributs, pool de 50 (= pire cas): 0.45 précision
** N génomes peuvent être apparaisé avec N phénotype ?
tous les attributs, pool de 50 (= pire cas): 0.53 précision

** 10 candidats parmis une cohorte de 100 88%