#+title:      De-anonymizing genomic databases using phenotypic traits
#+date:       [2024-07-17 Wed 14:41]
#+filetags:   :bib:facebook:
#+identifier: 20240717T144158
#+reference:  humbert2015anonymizing


NB: article pas toujours bien écrit (on se demande plusieurs fois ce qu'ils font)

Principe : attaquant a une liste de SNP et une liste de phénotype de la cible
- génotype : 1000genome, opensnp, hack bdd
- phéontype : réseaux sociaux, hack bdd
 Les AF de la population doivent être connus

2 types d'attaque
1. identification: à partir d'un phénotype d'une cible, identification du génotype par N génotypes
2. perfect matching: si on a les données génomique et phénotypique de n individus, on veut les faire correspondre
Une fois le génotype connu, évaluation de la susceptibilité à Alhzeimer (2 SNPs a priori)

2  modèles
1. non-supervisé : une correspondante phénotype -SNP  est connue (SNPeida)
2. supervisé : idem mais stats sur totue la population (openSNP)

* Résultat
Données OpenSNP 2014 (génomic + phénotype)
80 participants
| Cible | Modèle 1 | Modèle 2 |
|-------+----------+----------|
| 1     |       5% |      13% |
| n     |       8% |      16% |
Susceptibilité à Elzheimer: On a l'inaccuracy donc on fait la déduction
| Cible | Modèle 1 | Modèle 2 |
|-------+----------+----------|
|     1 |      84% |      95% |

Je ne retiens que les génotype à 80 : c'est le pire cas mais le plus réaliste