apraga/org: notes/biblio/erlich2014.org

:PROPERTIES:
:ID:       554a09e5-44a2-44c6-b5b1-6ee175ba7a9a
:ROAM_REFS: @erlich2014
:END:
#+title: Erlich, Yaniv and Narayanan, Arvind :: Routes for breaching and protecting genetic privacy

Stratégies : définition, concepts, performances et limitations
Méthode avec data mining + combinaison resources distinctets


* Identity tracing attack
= identifier un échantiollon d'ADN avec des /quasi-identifiers/ (infomation partielle contenue dans les données)
** Métadonnées
date de naissance, sexe et les 5 chiffres du code postal identifie de manière unique > 60% américains
Nombreuses base de données liants ces quasi-identifiants à des individus (vote, peoplefinder),
Exemples de généalique : même avec le nombre d'individus seulement, ~30 étaient uniques sure une ville de 60k habitants aux US...
Si on a l'âge et l'état de résience, avec les apparentés de 1er et second degrée, on diminue fortemente les possibilités
Une fois un individés identiifés, beaucoup plus facile.
Principale difficulté = recherche difficilbe (non dipsoible publement)
** Genealogic trianglutaion
Explotation de données généalogiques + gsénétique
chromosome Y et surname inférence : voir [cite:@Gitschier_2009] ,
[[id:6b6506f8-dd5a-4c44-bdad-8cb1030825fd][Inférence sur le nom de famille]]
** Phenotypic prediction
PRincipe = prédire le phénotype des données génétique -> sert à identifier
Limite: la génétique explique une petite portion de la variabilité phéhonytpique  (ex: 10% de la taille)
Couleurs des eyes et âge possible mais seulement 3-4bits d'information.
Et difficile à chercher (pas de registre)
** Side-channel leaks
Données encodées par erreur, exemple du noms de famille dans le fichier de PGP...
Mais attentions aux fichiers dérivés de microsoft office
Le numéro d'identification doit être randomisé sinon on peut avoir des informations intéressantes (corrélation spatiale et temporelles qui aurait permis de prédire les numéro de sécurité sociale aux États-Unis, citation 58)
* Attribute disclosure avec ADN
Principe: à partir de l'ADN, on cherche des base de données génétiques avec données "sensibles" (ex: utilisation de drogues)
** n=1
si les données sont directement associées aux génotype, il suffit d'un petit nnombre de SNPs (45 bien choisis pour erreur de 10^15, 300 au hasard)
  GWAS sont particulièrement exposé
** Données résumées
   - exemple des fréquences alléliques = pour les variations très rares, une fréquence positive dans une étude augment la probablement que le sujet faisat parti de l'étude.
   Avec des SNPs, on peut aussi le faire sur les GWAS. Étute
   - note : exemple de GWAS pour schizophrénie avec un attaquant qui prend des ADNs au hasard dans les États-Unis: étude de petite taille -> puissance et spécficité intéressante. Si l'étude est tropi petit, il ne trouvera quasiement pas de participant. Les performences sont amélioriées si on filtre la population échantillionée par l'attaquant (ex: ethnie, géographie)
   - on peut aussi les allèles assez rares co-uccurent sur des black d'haplotype différent (créant ansii un évèoenement rare) -> /linkage desequilibrium/
   - en utilisant des GWAS qui se basent sur les même données, on peut raffiner le phénotype (intersection)
Impact probablement faible car il faut l'ADN de la victime
** Expression génique
Base de données  https://www.ncbi.nlm.nih.gov/geo/
Méthode:
- trouver les "expression quantitative trait locus" (locus génétique qui explique la variation dans l'expression d'ARN)
- apprendre les distributions des profil d'expression par génotype
- ensuite, on scane la pase de données et pour chaque locas, on calcule la probablié d'un génotype
- enfin on match avec le génotype de la cible
  Limite:
  - efficacité maxmial sur même tissus,
  - performance diminué ave
* Completion
Accès partiel à l'ADN mais exploitation de /linkage desequilibrium/ sur des marqueur pour reconstituer l'information
Exemple du locus APOE masqué mais dont on pourrait retrouvé l'information avec des marqueurs autours (citation 77, génome du Dr James Watson)

Possible sans accès direct à l'ADN de la cible ! (il faut généalogie + génétique)
- si données génétique d'1 apparent: on estime la prédispositon génétique des parents (ex: alzheimer) en utilisant une recherche facebook. Site utilisé opensnp.ong
- si données de plusieurs apparentées, il faut prendre un lien de parenté unique et identifier des segments en commun avec la cible. Ex: decode en Islande qui a trouvé des variants de 200k individus en plus !

* Mitigation
Non lu