:PROPERTIES:
:ID:       b763f188-91ad-4a75-ac3e-fee2f81e3514
:ROAM_REFS: @humbert2015anonymizing
:END:
#+title: Humbert, Mathias and Huguenin, Kévin and Hugonot, Joachim and Ayday, Erman and Hubaux, Jean-Pierre :: De-anonymizing genomic databases using phenotypic traits

NB: article pas toujours bien écrit (on se demande plusieurs fois ce qu'ils font)

Principe : attaquant a une liste de SNP et une liste de phénotype de la cible
- génotype : 1000genome, opensnp, hack bdd
- phéontype : réseaux sociaux, hack bdd
 Les AF de la population doivent être connus

2 types d'attaque
1. identification: à partir d'un phénotype d'une cible, identification du génotype par N génotypes
2. perfect matching: si on a les données génomique et phénotypique de n individus, on veut les faire correspondre
Une fois le génotype connu, évaluation de la susceptibilité à Alhzeimer (2 SNPs a priori)

2  modèles
1. non-supervisé : une correspondante phénotype -SNP  est connue (SNPeida)
2. supervisé : idem mais stats sur totue la population (openSNP)

* Résultat
Données OpenSNP 2014 (génomic + phénotype)
80 participants
| Cible | Modèle 1 | Modèle 2 |
|-------+----------+----------|
| 1     |       5% |      13% |
| n     |       8% |      16% |
Susceptibilité à Elzheimer: On a l'inaccuracy donc on fait la déduction
| Cible | Modèle 1 | Modèle 2 |
|-------+----------+----------|
|     1 |      84% |      95% |

Je ne retiens que les génotype à 80 : c'est le pire cas mais le plus réaliste