#+title: De-anonymizing genomic databases using phenotypic traits #+date: [2024-07-17 Wed 14:41] #+filetags: :bib:facebook: #+identifier: 20240717T144158 #+reference: humbert2015anonymizing NB: article pas toujours bien écrit (on se demande plusieurs fois ce qu'ils font) Principe : attaquant a une liste de SNP et une liste de phénotype de la cible - génotype : 1000genome, opensnp, hack bdd - phéontype : réseaux sociaux, hack bdd Les AF de la population doivent être connus 2 types d'attaque 1. identification: à partir d'un phénotype d'une cible, identification du génotype par N génotypes 2. perfect matching: si on a les données génomique et phénotypique de n individus, on veut les faire correspondre Une fois le génotype connu, évaluation de la susceptibilité à Alhzeimer (2 SNPs a priori) 2 modèles 1. non-supervisé : une correspondante phénotype -SNP est connue (SNPeida) 2. supervisé : idem mais stats sur totue la population (openSNP) * Résultat Données OpenSNP 2014 (génomic + phénotype) 80 participants | Cible | Modèle 1 | Modèle 2 | |-------+----------+----------| | 1 | 5% | 13% | | n | 8% | 16% | Susceptibilité à Elzheimer: On a l'inaccuracy donc on fait la déduction | Cible | Modèle 1 | Modèle 2 | |-------+----------+----------| | 1 | 84% | 95% | Je ne retiens que les génotype à 80 : c'est le pire cas mais le plus réaliste