:PROPERTIES: :ID: b763f188-91ad-4a75-ac3e-fee2f81e3514 :ROAM_REFS: @humbert2015anonymizing :END: #+title: Humbert, Mathias and Huguenin, Kévin and Hugonot, Joachim and Ayday, Erman and Hubaux, Jean-Pierre :: De-anonymizing genomic databases using phenotypic traits NB: article pas toujours bien écrit (on se demande plusieurs fois ce qu'ils font) Principe : attaquant a une liste de SNP et une liste de phénotype de la cible - génotype : 1000genome, opensnp, hack bdd - phéontype : réseaux sociaux, hack bdd Les AF de la population doivent être connus 2 types d'attaque 1. identification: à partir d'un phénotype d'une cible, identification du génotype par N génotypes 2. perfect matching: si on a les données génomique et phénotypique de n individus, on veut les faire correspondre Une fois le génotype connu, évaluation de la susceptibilité à Alhzeimer (2 SNPs a priori) 2 modèles 1. non-supervisé : une correspondante phénotype -SNP est connue (SNPeida) 2. supervisé : idem mais stats sur totue la population (openSNP) * Résultat Données OpenSNP 2014 (génomic + phénotype) 80 participants | Cible | Modèle 1 | Modèle 2 | |-------+----------+----------| | 1 | 5% | 13% | | n | 8% | 16% | Susceptibilité à Elzheimer: On a l'inaccuracy donc on fait la déduction | Cible | Modèle 1 | Modèle 2 | |-------+----------+----------| | 1 | 84% | 95% | Je ne retiens que les génotype à 80 : c'est le pire cas mais le plus réaliste