245NIQ5D2RXAMRBKA7MA4PWZBNEUGO6HZZB46YZHI7TERUEX2E7QC
AZYRMLWV65VAHND5G3SXGB6DLWR2DO64T7H6C3NIFHW2EBXP3KTQC
Y2SHXHEPVYTZSL3ZW222W7E76VCBHEVZLFLPAMW6Y5CKAHPK6RPAC
M6GJ5MQ7PKVD5SKOL3VMTZAEGONBDDRQIXW3LGTJAVCQX77ADRCQC
2QF7HCG5CLNOBSZUKSHRI2MR4FHHXWY22ZP7JMWD52ZSO2LO2DLAC
D7C6HJBOMSGMIVHXWDTYRK5GJ2LWWPKQKI3GFQLHN3XHGH4KEKXQC
EXXDISQ3I67ZY3JZP7BFBDXLHLL5YIPQMXYMN4IPTNYJFOFPLOPAC
VF7UKNIF73KICCJULRNI4TBTFIRQDFXIP2SEFXPK7NX5H3B4XMCQC
#+title: Friday 26 July 2024 11:59
#+date: [2024-07-26 Fri 11:59]
#+filetags: :journal:
#+identifier: 20240726T115901
* Biblio pseudogène
- méthode simple pour rattrapager sur les shortread [cite:@ebbert2019systematic]
#+title: Systematic analysis of paralogous regions in 41,755 exomes uncovers clinically relevant variation
#+date: [2024-07-26 Fri 09:52]
#+filetags: :bib:chameleolyser:pseudogène:
#+identifier: 20240726T095249
#+reference: steyaert2023systematic
Identification SNVV,indel, CNV et "ectopic gene conversion" en exome sur région homologues
* Contexte
:PROPERTIES:
:CUSTOM_ID: h:0637a6fa-b137-434c-94d7-b08c4caba476
:END:
- région paralogues
- 17000 gènes codant ont une séquence fortement identiques à d’autres régions du génome (=paralogue)
- origin : duplication/rétro-transcription dans l’évolution
- divergence avec accumulation de mutation -> parfois perte de fonction -> paralogue non codant (pseudogene) ou codant mais différente fonction
- ectopic gene conversion
- copie d’une séquence homologue d’ADN (donneur) sur une autre (accepteur). Mécanisme = erreur pendant recombinaison homologue duran ala méoiose
- 1% des gènes impliqués maladies héritées
- problème :
1. gene conversion non indentifié en exome/genome
- les reads sur la région "acceptrice" sont aligné sur la région "donneuse" -> peu de reads sur la région acceptrice -> pas de SNVs appelé
- identifié comme délétion lors de l’appel de CNV
2. les régions identiques à 100% auront une qualité d’alignement de 0 (car multiple endroits possibles)
- Méthodes existantes
- CNV:
- utilisation de profondeur sur des nucléotides uniques : inconvénient : génome (pas un problème pour nous...) et ne fonctionne pas pour les gene conversion
- *rien pour les SNVs/indel sur paralogue identique*
- [cite:@ebbert2019systematic] : caractérisation mais pas de solution concrète d’après les auteurs.
* Algorithme
1. extraction des reads (3.5% exomes) affecté par l’homologie de séqueunce
2. ré-aligné sur génome de référence en masquant les régions homologues
3. appels de variant
Pour différence délétion homozygote et ectopic gene conversion
1. analyse de la couverture dans l’alignement initial :
- les reads du site accepteur seront aligné sur le site donner -> pas de reads à cet pas de reads sur le site et 2x sur le donneur
* Validation
- Long-read Pacbio sur 20 échantillions
- sur 769 SNV/indel non du à une gene conversion -> 678 confirmé
- 8 gene conversion homozygotes -> toutes retrouvées
- 15 délétion homozygotes -> 13/15 confirmée
- 5 patients GIAB : NA12878 HG002-5
- attention: il faut le meme kit, donc ils n’ont regardé que les SNV/indel ne résultant pas d’un gene
- 118SNV/indel non résultat d’un gene conversion -> 98 concordent
** Données disponible
- pacbio maison: accès restreint, à demander
- https://ega-archive.org/datasets/EGAD00001009109 6 trio + 1 proband en HiF 30X
- https://ega-archive.org/datasets/EGAD00001011305 STRPC1 sur cohorte
- giab [[https://static-content.springer.com/esm/art%3A10.1038%2Fs41467-023-42531-9/MediaObjects/41467_2023_42531_MOESM11_ESM.xlsx][Liste des variants]] disponible mais à revoir
* Résultats autres
** Comparaison avec autres appels de variants
- SNV et indel non dépendant gene conversion
- GTK et deepvariant
#+title: Errors in RNA-Seq quantification affect genes of relevance to human disease
#+date: [2024-07-26 Fri 12:09]
#+filetags: :bib:pseudogène:
#+identifier: 20240726T120945
#+reference: robert2015errors
Cité par [cite:@ebbert2019systematic] mais pas de stratégie pour les multi-map en RNAseq, si ce n’est les grouper
#+title: Systematic analysis of dark and camouflaged genes reveals disease-relevant genes hiding in plain sight
#+date: [2024-07-26 Fri 10:52]
#+filetags: :bib:pseudogène:
#+identifier: 20240726T105257
#+reference: ebbert2019systematic
Juste lu les méthodes pour "rattraper" variants
Définition
- dark = nombre insuffisant de reads ou qualité d’alignement insuffisante pour appel de variant
- seuil retenu : <= 5 reads ou >= 90% ont MAPQ < 10
- camouflaged : région "dark" à cause de duplication (seuil retenu : simularité de 98% avec BLAT)
* Rattrapage
- long-read
- short-read si aligement >= 2 régions, BWA va aligner au hasard et mettre une qualité à 0. Rattrapage
1. extraction des redas des régions "camouflée"
2. masquer les régions similaires du génome de référence sauf 1
3. ré-aligner
4. appel de variant
Dit s’inspirer de[cite:@robert2015errors] mais ils ne font que grouper les reads mal alignés
**** DONE Systematic analysis of dark and camouflaged genes reveals disease-relevant genes hiding in plain sight
CLOSED: [2024-07-26 Fri 12:12] SCHEDULED: <2024-07-26 Fri>
:PROPERTIES:
:TITLE: Systematic analysis of dark and camouflaged genes reveals disease-relevant genes hiding in plain sight
:BTYPE: article
:CUSTOM_ID: ebbert2019systematic
:AUTHOR: Ebbert, Mark TW and Jensen, Tanner D and Jansen-West, Karen and Sens, Jonathon P and Reddy, Joseph S and Ridge, Perry G and Kauwe, John SK and Belzil, Veronique and Pregent, Luc and Carrasquillo, Minerva M and others
:JOURNAL: Genome biology
:VOLUME: 20
:PAGES: 1--23
:YEAR: 2019
:PUBLISHER: Springer
:URL: https://link.springer.com/article/10.1186/s13059-019-1707-2
:END:
**** KILL Errors in RNA-Seq quantification affect genes of relevance to human disease
CLOSED: [2024-07-26 Fri 12:09]
:PROPERTIES:
:TITLE: Errors in RNA-Seq quantification affect genes of relevance to human disease
:BTYPE: article
:CUSTOM_ID: robert2015errors
:AUTHOR: Robert, Christelle and Watson, Mick
:JOURNAL: Genome biology
:VOLUME: 16
:PAGES: 1--16
:YEAR: 2015
:PUBLISHER: Springer
:END:
}
@article{ebbert2019systematic,
author={Ebbert, Mark TW and Jensen, Tanner D and Jansen-West, Karen and Sens, Jonathon P and Reddy, Joseph S and Ridge, Perry G and Kauwe, John SK and Belzil, Veronique and Pregent, Luc and Carrasquillo, Minerva M and others},
title={Systematic analysis of dark and camouflaged genes reveals disease-relevant genes hiding in plain sight},
journal={Genome biology},
year={2019},
volume={20},
pages={1--23}
}
@article{robert2015errors,
author={Robert, Christelle and Watson, Mick},
title={Errors in RNA-Seq quantification affect genes of relevance to human disease},
journal={Genome biology},
year={2015},
volume={16},
pages={1--16}
}
@article{samocha2014framework,
author={Kaitlin E Samocha and Elise B Robinson and Stephan J Sanders and Christine Stevens and Aniko Sabo and Lauren M McGrath and Jack A Kosmicki and Karola Rehnström and Swapan Mallick and Andrew Kirby and Dennis P Wall and Daniel G MacArthur and Stacey B Gabriel and Mark DePristo and Shaun M Purcell and Aarno Palotie and Eric Boerwinkle and Joseph D Buxbaum and Edwin H Cook and Richard A Gibbs and Gerard D Schellenberg and James S Sutcliffe and Bernie Devlin and Kathryn Roeder and Benjamin M Neale and Mark J Daly},
title={A framework for the interpretation of de novo mutation in human disease},
journal={Nature Genetics},
year={2014},
volume={46},
number={9},
pages={944-950},
doi={10.1038/ng.3050}
}
@article{samocha2014framework,
author={Kaitlin E Samocha and Elise B Robinson and Stephan J Sanders and Christine Stevens and Aniko Sabo and Lauren M McGrath and Jack A Kosmicki and Karola Rehnström and Swapan Mallick and Andrew Kirby and Dennis P Wall and Daniel G MacArthur and Stacey B Gabriel and Mark DePristo and Shaun M Purcell and Aarno Palotie and Eric Boerwinkle and Joseph D Buxbaum and Edwin H Cook and Richard A Gibbs and Gerard D Schellenberg and James S Sutcliffe and Bernie Devlin and Kathryn Roeder and Benjamin M Neale and Mark J Daly},
title={A framework for the interpretation of de novo mutation in human disease},
journal={Nature Genetics},
year={2014},
volume={46},
number={9},
pages={944-950},
doi={10.1038/ng.3050}
*** TODO Porter script en hg19
*** TODO Vérifier concordances
**** TODO GIAB ? [cite:@steyaert2023systematic]
Non clair, région masquée ?
- giab [[https://static-content.springer.com/esm/art%3A10.1038%2Fs41467-023-42531-9/MediaObjects/41467_2023_42531_MOESM11_ESM.xlsx][Liste des variants]] disponible
**** TODO Accès données pacbio : voir avec Julien [cite:@steyaert2023systematic]
- pacbio maison: accès restreint, à demander
- https://ega-archive.org/datasets/EGAD00001009109 6 trio + 1 proband en HiF 30X
- https://ega-archive.org/datasets/EGAD00001011305 STRPC1 sur cohorte
*** TODO Porter script en hg38
SCHEDULED: <2024-08-02 ven.>
/Entered on/ [2024-06-25 mar. 13:58]
SCHEDULED: <2024-07-31 Wed>
Discuté avec Pauline [2024-07-26 Fri] : ok pour envoi par Marine la semaine prochaine
*** DONE Vérifier consentement pour envoi "recherche"
CLOSED: [2024-07-26 Fri 13:58] SCHEDULED: <2024-07-26 Fri>
/Entered on/ [2024-07-26 Fri 13:31]
- présenter résultats sur forum
- modèle stats (si fini)
Pseudogène
- demander accès pacbio ? validation faite sur 6 patient GIAB mais ils ont fait du long read hifi. Il faut passer par une commission
- https://ega-archive.org/datasets/EGAD00001009109 6 trio + 1 proband en HiF 30X
- https://ega-archive.org/datasets/EGAD00001011305 STRPC1 sur cohorte
*** WAIT MR-2400560
NPRL3 3x gnomad mais score vert... faux-sens décrit dans la pathologie, colle clinique, clinvar VOUS... -> revoir le père ?
*** WAIT MR-2400560: négatif poussé hygen, à transmettre Jérémie
SCHEDULED: <2024-07-29 Mon>
4x gnomad, tronquants surtout rapporté (mais pLI 0.19), scores bénin sauf CADD
Domain fonctionnel
faux-sens décrit dans la pathologie, colle clinique, clinvar VOUS... -> revoir le père ?
Publi : 11 enfant épilepsie NPRL3 + biblio (88 cas)
- moléculaire : 75% perte de fonction
- clinique : "sleep-related hypermotor epilepsy (SHE), frontal lobe epilepsy (FLE), and temporal lobe epilepsy." surtout, majorité IRM normale
- ici 2 faux-sens conservé Ala134Thr et Val217