#+title:      A framework for the interpretation of de novo mutation in human disease
#+date:       [2024-07-22 Mon 10:01]
#+filetags:   :bib:facebook:
#+identifier: 20240722T100100
#+reference:  samocha2014framework

Modèle statistique pour mutation de novo par gène (amélioration de[cite:@neale2012patterns] ) en exome.

Utilisation pour déterminer les gènes avec pression de sélection (moins de variant qu'attendu)

* Modèle de base
À noter que[cite:@krawczak1998neighboring] conseille d’inclure les 5’ et 3’
1. table de probabilité de mutation d’un nucléotide (en se basant sur trinucléotide): idem que [cite:@neale2012patterns] (détaillé dans la note) avec al matrice 1000 génome
   On a donc 64x3 possibilités
2. probabilité par gène: pour chaque base du gène, on détermine le trinucléotide et on somme les probabilités dans la table pour les 3 possibilité (3 autres nucléotides possibles)

* Ajustement
- sur la profondeur: on calcule la probabilité d’appeler un variant de novo donc cela dépend de la qualité du séquencage
  - sur leur cohorte, s’il y a des trios avec < 10x couverture sur cette base, la probabilité est multilié par un facteur entre 0.9 et 1 (non clair comment)
- sur la divergence avec les singe : pour capture la déviation du taux de mutation
  - score de divergence  = nombre de sites divergence/site examens pour la région contenant le gène +/-1 MB. Puis modèle liéaire
  - score moyen si pas de score de divergence
  - sauf que le taux de mutation prédit a été augmenté donc les probabilité ont été ajusté pour lue la somme soit identique après le score
- (timing de réplication ADN (si tardif, plus de mutation): utilisation des Z-score de Koren et al. -> retiré car n’apporte pas d’information !)
Résultat
-  [[https://static-content.springer.com/esm/art%3A10.1038%2Fng.3050/MediaObjects/41588_2014_BFng3050_MOESM12_ESM.xls][excel avec mutation par gène]]