#+title:      Tuesday 16 July 2024 17:25
#+date:       [2024-07-16 mar. 17:25]
#+filetags:   :journal:
#+identifier: 20240716T172506

Notes sur réunion <2024-07-15 lun.>:
2 points différents
1. ré-identification = retrouver nom, prénom etc -> c'est la biblio. À mettre à jour (not. généalogie)
2. perte d'anonoymisation = partie spécifique aux maladies rares. Pas de biblio !
   - sur les variants seuls: Julien propose de faire un calcul de probabilité avec un nombre d'évènement un peu fin:
     - population concernée = nombre de naissances avec maladie rare (voir chiffre en ligne)
       - puis affiner selon le type de maladies et de variant : F508del n'a pas la même fréquence qu'un variant tronquant SEDT5 (?)
   - sur le phénotype seul : on peut probablement réutiliser la bibliographie avec l'entropie [cite:@erlich2014]
   - qui du lien phénotype-génotype ? l'idéal serait de proposer un seuil : n_variant + n_phenotype < seuil. Comment le déterminer ?

Autres remarques
- si on a plusieurs patient avec phénotype/génotype ou les 2, on ne peut pas les identifier. Donc si la cohorte est suffisamment grosse, c'est bon
- pour les maladies tellement rares qu'on n'a pas de fréquence : a-t-on le seul individu ? Plus difficile à justifier mais voir calcul ci-dessus
- en dernier recours, si on arrive à identifier un individu, "pas si grave" car on n'en aura *pas* identifié une centaine par exemple (balance bénéfice risque)

NB:
- 30% d'identification n'est pas grand-chose pour Philippe-Jean ("anonyme")
- soit on fait un calcul un peu "nul", soit on fait un article propre intéressant