#+title:      Ensuring privacy and security of genomic data and functionalities
#+date:       [2024-07-17 Wed 14:48]
#+filetags:   :bib:facebook:
#+identifier: 20240717T144855
#+reference:  yakubu2019


Super tableau avec les types d'attaques et les articles
Figure 1 qui résume bien la classification

Discute cryptographique, techniques pour préserver confidentalité -> non lu

* Attaques
** Identity tracing attack
À partir de l'ADN (anonymisé oun no identifié) -> identifie le patient avec des quasi-identifier (age, sexe, nom de famille etc) obtenu depuis réseaux sociaux ou bases ded onnées publique (peoplesmart, findoutthetruth)
Ex: nom de famille trouvé pour
- partisan PGP (Sweeney 2013)
- à partir du chrY [cite:@gymrek2013]

 [cite:@erlich2018] : à partir du génome d'un suspect, on cherche ses apparenté dans des services public de généalogie
Avec un service qui répond oui/non pour un allèle dans un génome, on peut savoir si un individu est présent dans cette base[cite:@shringarpure2015]
** Attribute disclosure
Prédire attributs "sensible" des victimes (phénotype, association maladie, drogue
ADN connu
On cherche base de données d'étude génétique ou GWAS

Stastitique aggréges ne cachent pas [cite:@cai2015]
Si on a le phénotype complet et accès au génotype de pluseurs individus, on peut retrouver le génotype et en déduire une présdisposition alzheimer dans [cite:@humbert2015anonymizing]
[cite:@lippert2017] Prédiction de caractéres phénotypique (parte 1) et identification basée dessus parmis une pré-selection. Critique violente par [cite:@erlich2017major] : age, sex et ethinicité suffisent à avoir la même précision

Pharmacogénétique: inversion d'un modèle prédisant warfarine pour un undifiviut: on peut avoir la génétique et certains paramètres (age, ethnie, taille, poids)
** Completion attacks
Reconstruction de l'information génétique à partir
- de l'ADN parcellaire de la cible
- ou de l'ADN de la famille
  - Possible du fait de la corrélation importante.
  - Pionnier [cite:@humbert2013addressing]
  - réciproque : ADN de la famille à partir du cas index [cite:@humbert2017quantifying] (même modèle mais amélioré -- ils ont juste mis à jour l'article)

amélioration [cite:@deznabi2018inference] avec corrélation complexe mais même idée
Prédiction génotype et phénotype: [cite:@he2020inference]

Enfin, une technique complètemenet différente: utilisation des haplotypes identiques dans la généalogiue (IBD = identical by descent) [cite:@kong2008detection]
** Tableau
| Type       | Article                        | Données de la cible              | Données externes                    | Résultat                 | Performance                      | Méthode                     |
|------------+--------------------------------+----------------------------------+-------------------------------------+--------------------------+----------------------------------+-----------------------------|
| Identity   | [cite:@sweeney2013]            | démographie [fn:1]               | registre de vote, autre             | Nom et prénom            | 35%                              | Simple comparaison          |
| tracing    | [cite:@gymrek2013]             | STR du chrY                      | généalogie avec génétique           | Nom de famille           | 12%                              | Score de confiance pondéré  |
|            | [cite:@shringarpure2015]       | VCF, modèle des AF               | non                                 | Présent dans la base     | puissance 95% [fn:4]             | Likelyhood-ratio test[fn:3] |
|            |                                | de la pop. cible                 |                                     |                          | (250SNP)                         |                             |
|            | [cite:@raisaro2017]            | VCF, AF                          | non                                 | Présent dans la base     | puissance 100% [fn:4]            | Likelyhood-ratio test       |
|            |                                |                                  |                                     |                          | (36SNP)                          |                             |
|            | [cite:@vonthenen2019]          | VCF                              |                                     | Présent dans la base     | puissance 100% [fn:4]            | Linkage desequilibrium      |
|            |                                |                                  |                                     |                          | (450 requêtes)                   |                             |
|            |                                |                                  |                                     | Présent dans la base     | même pour SNP                    | Chaine de Markov            |
|            |                                |                                  |                                     |                          | filtré MAF < 3%                  |                             |
|            | [cite:@erlich2018]             | test DTC[fn:5]                   | généalogie avec génétique           | Apparenté  [fn:8]        | 60%                              | Segments ADN hérité         |
|            |                                | (+/- position, âge, sexe)        |                                     | Individu cible           | 1-2 candidats[fn:6]              |                             |
|------------+--------------------------------+----------------------------------+-------------------------------------+--------------------------+----------------------------------+-----------------------------|
| Attribute  | [cite:@cai2015] [fn:13]        | > 25 SNPs                        | statistiques GWAS                   | Individu dans GWAS       | 12-20 personnes [fn:7]           | Data mining                 |
| disclosure | [cite:@humbert2015anonymizing] | phénotype complet                | corrélation SNP-phénotype           | Prédisposition Alzheimer | 85% (80 individus)               | statistiques                |
|            |                                |                                  | SNPs de différents individus [fn:9] |                          |                                  |                             |
|            | [cite:@lippert2017]            |                                  |                                     | Phénotype d'un individu  | moyenne à mauvaise[fn:10]        |                             |
|            |                                |                                  |                                     | Identification parmi     |                                  |                             |
|            |                                | génome                           | non                                 | un préselection[fn:11]   | précision 0.45 [fn:12]           | Machine learning            |
|------------+--------------------------------+----------------------------------+-------------------------------------+--------------------------+----------------------------------+-----------------------------|
| Completion | [cite:@humbert2013addressing]  | SNP parent, généalogie, MAF SNPs | généalogie                          | SNP cible                | erreur entre 0.05 et 0.2 [fn:14] | Belief propagation          |
|            |                                | linkage desequilibrium           |                                     |                          |                                  |                             |
|            | [cite:@humbert2017quantifying] | idem mais >= 1 individus         |                                     | idem mais >1 individu    |                                  |                             |
|            | [cite:@deznabi2018inference]   | idem mais corrélation            |                                     |                          |                                  |                             |
|            |                                | plus complexes (à citer ??)      |                                     |                          |                                  |                             |
|            | [cite:@he2020inference]        | idem mais phénotype prédi        |                                     |                          | erreur 0:4 et 0.5                |                             |

Autre
[cite:@fredrikson2014privacy] : contrairement à ce qui est mentionné dans la revue, ne regarde que le génotype donc pas intéressant ici

* Footnotes
[fn:14] selon famille. Préciser incertitude et type de tests ?

[fn:13] je ne mentionne pas les 2 autres études qui utilisent plus de SNPs (2008 et 2009)
[fn:12] Voir [cite:@erlich2017major]  pour une réfutation

[fn:11] pré-selectionnés sur le phénotype. performance similaire (0.53) pour faire corresponder des phénotype et des génotype
[fn:10] À préciser ?

[fn:9] retrouve d'abord le génotype
[fn:8] cousin 3e degré

[fn:7] Ordre de grandeur des GWAS 1400-2000 individus
[fn:6] En supposant connu: la position +/- 160km, âge +/-5 an et sexe (cas d'usage: recherche policière)

[fn:5] Test en pharmacie avec 700 000 sondes
[fn:4] Avec 5% de faux positifs

[fn:3] Statistique
[fn:2] Distribution dite "beta"
[fn:1] age, sexe, code postal