* Stratégies
:PROPERTIES:
:CUSTOM_ID: stratégies
:END:
Nouvelles entrées d'OMIM https://omim.org/search/advanced/entry 1. soit
nouveau gènes (coche “*") : pas de function associée 2. soit nouvelle
association sur ancien gènes (cocher"#")"Download as”

** Phénotypes
:PROPERTIES:
:CUSTOM_ID: phénotypes
:END:
Depuis 2021/01/01

https://omim.org/search?index=entry&start=1&search=&sort=score+desc%2C+prefix_sort+desc&limit=10&prefix=%23&date_created_from=2021%2F01%2F01&date_created_to=&date_updated_from=&date_updated_to=

Avec helix on extrait les gènes

#+begin_src sh
cd ~/research/bisonex/code/reanalaysis
sed 's/\t//g'  ~/Downloads/OMIM-Entry-Retrieval.tsv | save phenotypes-2021-01-01.tsv
#+end_src

On n'a des résultats que sur une correspondance partielle (\t$GENE)

#+begin_src nu
open phenotypes-2021-01-01.tsv --raw | from tsv -n | each {|e| rg $"\t($e.column1)" ~/annex/data/bisonex/annotate/full} | str join | save phenotype-result.txt
#+end_src

** AFF3
:PROPERTIES:
:CUSTOM_ID: aff3
:END:
Plusieurs matches pour [[https://www.omim.org/entry/619297][AFF3]]. pLI
à 1 Pour analyser tous les variants, on ajoute le nom de fichier pour
chaque résultat et le tout est dans un TSV

#+begin_src nu
 open phenotypes-2021-01-01.tsv --raw | from tsv -n | each {|e| rg -H --no-heading $"\t($e.column1)" ~/annex/data/bisonex/annotate/full }  | str join | save phenotype-result.tsv -f
#+end_src

2 candidats - VOUS chr2:g.100104415G>A
https://mobidetails.iurc.montp.inserm.fr/MD/api/variant/577218/browser/
qq scores bioinfo en faveur, clinique colle partiellement (mais non
spécifique). Déjà un VOUS sur autre gène - (*) VOUS- chr2:g.99560401T>C
NM_001386135.1:c.3155A>G
https://mobidetails.iurc.montp.inserm.fr/MD/api/variant/282096/browser/
-> Clinvar vous, spip élevé mais aucun des autres scores. Clinique
lourde, overlap partiel (not. encéphalopathie). Exome rendu nég

Très peu probable - (*) chr2:g.99707103C>T
https://mobidetails.iurc.montp.inserm.fr/MD/api/variant/577243/browser/
légère altération splice,. Clinique ne colle pas. Exome neg - VOUS
chr2:g.100006849G>T NM_001386135.1:c.656C>A
https://mobidetails.iurc.montp.inserm.fr/MD/api/variant/577248/browser/
-> éliminé sur la clinique car diabète + cause génétique retrouvée... -
https://mobidetails.iurc.montp.inserm.fr/MD/api/variant/453600/browser/ -
chr2:g.99601569_99601571del
https://mobidetails.iurc.montp.inserm.fr/MD/api/variant/115565/browser/ -
chr2:g.99601569_99601571del CADD à 18
https://mobidetails.iurc.montp.inserm.fr/MD/api/variant/115565/browser/ -
chr2:g.99593527C>T
https://mobidetails.iurc.montp.inserm.fr/MD/api/variant/577240/browser/

Paul : VOUS- pour les 2 Alexis a vérifié qu'ils sont bien dans les VCFs
de centogène.

** Gènes récents
:PROPERTIES:
:CUSTOM_ID: gènes-récents
:END:
858 nouveaux gènes avec
https://omim.org/search?index=entry&start=1&search=&sort=score+desc%2C+prefix_sort+desc&limit=10&prefix=*&date_created_from=2021%2F01%2F01&date_created_to=&date_updated_from=&date_updated_to=

Pour filter avec seulement les pLI intéressantes 1. nettoyer le fichier
omim (header footer) et renommer en OMIM-new-genes.tsv Puis séparer le
nom du gène en une nouvelle colonne

#+begin_src nu
sd '; ' '\t' OMIM-new-genes.tsv
#+end_src

Et rajouter le header gene 2. télécharger scores pLI

#+begin_src nu
wget https://storage.googleapis.com/gcp-public-data--gnomad/legacy/exac_browser/forweb_cleaned_exac_r03_march16_z_data_pLI_CNV-final.txt.gz
gunzip forweb_cleaned_exac_r03_march16_z_data_pLI_CNV-final.txt.gz 
mv forweb_cleaned_exac_r03_march16_z_data_pLI_CNV-final.txt forweb_cleaned_exac_r03_march16_z_data_pLI_CNV-final.tsv
#+end_src

On fait l'intersection en prenant seuls ceux avec pLI > 0.5

#+begin_src nu
let omim = open OMIM-new-genes.tsv
let pli = open forweb_cleaned_exac_r03_march16_z_data_pLI_CNV-final.tsv | select gene pLI$omim | join $pli Gene gene | first
$omim | join $pli Gene gene  | where pLI > 0.5
#+end_src

On a 49 gènes mais pas forcément de clinique associée... On suit plutôt
la méthode d'alexis (cf Clinical sypnosis)

Decipher ? pLI différentes de gnomAD car dépend du transcrit

** Clinical synopsis
:PROPERTIES:
:CUSTOM_ID: clinical-synopsis
:END:
On cherche tous les synopsis créés après le 1er janvier 2021. Ce ne sont
pas forcément des nouveaux gènes ni de nouveaux phénotypes

https://omim.org/search?index=entry&sort=score desc, prefix_sort
desc&start=1&limit=200&cs_exists=true&date_created_from=2021/01/01&format=tsv

On utilise un script Rust pour fusionner tous les TSV du pipeline en un
seul (voir code/reanalyse/README.md) avec les gènes correspondants :

#+begin_example
    cargo run --release --bin candidates-phenotypes
#+end_example

Le fichier run_filtered.tsv contient l'intersection. On a 172 entités
Omim et environ 3100 varians correspondants.

On filtre par gnomAD exome AF croissant.

Candidats en dominant

- SPEN:
  - NM_015001.3:c.10709A>G VOUS 62982227 avec exome neg
    - moitié scores bioinfo en faveur, non retrouvé dans gnomAD
    - zones relativement intolérante aux missense (decipher), en fin de
      gène sans hotspot
    - clinique : foetus avec malfo cardiaque, colle partielement
    - 1 clinvar VOUS
- LMNB2:
  - NM_032737.4:c.1634C>T VOUS- ? qq score bionfo, pas de hotspot,
    clinique colle partiellement sur la DI, exome neg

On suit les conseils d'alexis filtrer si < 1% pour dominant, 5% pour
récessif

Pause : on regarde les tronquants en groupant par ID cento pour éviter
de faire plusieurs fois le même patient:w Pas de tronquant intéressant
dans SPEN