* 2024-07-15
** 15:21 Discussion julien avant présentation CAD
Après bibliographie extensive la semaine dernière.

Schéma
- Données = WGS, phénotype et système de santé (DPI etc)
- 3 niveaux
  1. public : /anonymisation/ que peut-on y mettre ? À ce stade, le CAD s'engage...
  2. sous authentification : /pseud-anonymisation/ : qu'y mettre (mais moins important)
  3. accès complet

Problème: pour >=1 variant et >= 1 phénotype, peut-on garantir l'anonymisation ?
A priori, problème non fait

Modèle: décipher

Idées :
- si on a suffisamment de patient, les variants rares vont être "dilués". On s'attend à 50-60 000 génomes
- on peut avoir une idée du nombre de SNP identifiants (25)
- et du caractère identifiant des phénotypes (voir la notion d'entropie par [cite:@erlich2014])