2IRTROMV2BQOAI4DM56ZNQAM4NJ7ZJROTJEMKED4JUJMCGYCO2JQC
U7LWAQW5JKLDCF3HTNGFRJLHVG4OFA4Z4S5WH7CI4N4VOD7SHC5QC
XPVVISXCZTDNHTWH63VBGGNBYPB35DJAMR6J46WKNFP7P53SXBRAC
245NIQ5D2RXAMRBKA7MA4PWZBNEUGO6HZZB46YZHI7TERUEX2E7QC
MTS2DOVSHFULFWHKHJ4XJNI2NWXMQCT45ZEAWYMAXNHYELJOHDKAC
LR4KYHBVKLFW4M5UL3SRYEDFCD5MYE2322XA6D467QBJUESYZYIAC
2QF7HCG5CLNOBSZUKSHRI2MR4FHHXWY22ZP7JMWD52ZSO2LO2DLAC
Y2SHXHEPVYTZSL3ZW222W7E76VCBHEVZLFLPAMW6Y5CKAHPK6RPAC
EXXDISQ3I67ZY3JZP7BFBDXLHLL5YIPQMXYMN4IPTNYJFOFPLOPAC
D7C6HJBOMSGMIVHXWDTYRK5GJ2LWWPKQKI3GFQLHN3XHGH4KEKXQC
MUV2BASF5RFEKSLQHTHVYMNT6YVHL6KCXSWCPSMSXAMMIQIXDNSAC
Lors du réalignement, parmi toutes les régions d'un paralogue, on ne retient que celles qui ont le moins de recouvrement avec une séquence codante
** Génération du génome masqué
Pour un ensemble de régions paralogues, on veut toutes les masquer, sauf 1 -> on ne retient que celles qui ont le moins de recouvrement avec une séquence codante
** Alignment et appel de variants
1. extraction des reads contenant les régions définies ci-dessus
2. conversion en FASTQ
3. suppression des doublons (picard)
4. appel de variant avec lofreq (car la VAF ne sera pas à 50%). Paramètres : no-default-filter, use-orphan, no-baq, no-mq, sig = 1
** Identification des délétions et des conversions
1. Détections des sous-régions
- pour I., intersection avec les exons codant pour les protéines (Gencode) +200bp -> donc exons seuls a priori ?
- pour II., inutile car ces régions sont petites mais on ne garde que les ensembles qui n'ont que 2 paralogues
2. Nombre de reads par sous-régions
3. kernel density estimation (KDE): on utilise la cohorte pour «lisser» les données avec un kernel (pour chaque sous-région probablement). On regarde la distribution sur tous les échantillons. Si un échantillon mal couvert est dans un groupe d'échantillons (pic), ce n'est probablement pas une délétion. Mais s'il est isolé, oui
- NB : je pense qu'on doit travailler avec des données de la forme y=nombre d'échantillons et x=couverture
4. Délétion complète des paralogues dans un ensemble de paralogue : on utilise une KDE mais en supprimant les pics > 10 readt ou > 10% des échantillons (pourquoi)
- NB: x = nb de reads sur cet intervalle donc a priori y = compte
5. Gene conversion ou délétion d'une région sur les 2
Également KDE mais avec un ratio
R = (nb reads s'alignant de manière unique sur X)/(ceux s'alignant sur X ou Y)
Filtre : on enlève les échantillons avec < 30 reads, région où nb moyen de reads sur X ou Y < 60, et pics > 10% des échantillons et /altérations ne recouvrant pas un gène codant pour une protéine/
Donc
- délétion homozygote de X si <= 10 reads sur X et R <= 0.05
- gene conversion si percentile maison <= seuil et si nombre de reads s'alignant sur Y > 3/4 (normalisé par le nombre de reads sur tous les paralogues)
NB : l'idée est de forcer un seuil extrême sur le site donneur s'il y a une couverture très importante sur le site accepteur
- sinon délétion de X
Enfin les délétions et conversion sont fusionnées : par gène puis pour les gènes proches
** Traitement des /shorts variants/
1. Appel de variant sur l'alignement initial et celui masqué
2. on ne garde que ceux
- profondeur >= 60 après masquage
- VAF >= 0.15
- variant absent du VCF initial
3. on ne sait pas sur quelle région sont les variants (sauf homozygotes) -> on calcule toutes les possibilités (x4 mais ce n'est pas intuitif)
4. Autres filtres : sont exclus
- variants > 10% des échantillons
- bonne qualité sur 1 échantillon mais pas sur les autres
- homopolymers
- sous régions avec 5 nucléotides uniques sur <= 10bp (diminue les faux positifs)
#+title: Integrating gene annotation with orthology inference at scale
#+date: [2024-08-06 mar. 10:20]
#+filetags: :bib:pseudogène:
#+identifier: 20240806T102022
#+reference: Kirilenko_2023
Détecte orthologues à partir d'un génome de référence, d'un alignement et de gènes annotés.
Pas le scope du projet ( pour les définitions, voir [[denote:20240806T101328][Séquences homologues]] )
#+title: Séquences homologues
#+date: [2024-08-06 mar. 10:13]
#+filetags: :génétique:
#+identifier: 20240806T101328
Homologue = ancêtre commun
- Paralogue : s'il y a eu une duplication (le plus souvent dans la même espèce mais ce n'est pas obligatoire)
- Orthologue : s'il y a eu une divergence avec séparation en 2 espèces
https://en.wikipedia.org/wiki/Sequence_homology#/media/File:Ortholog_paralog_analog_examples.svg
Il faudra utiliser le VCF avant la biglist donc relancer toute l'annotation -> il faut un accès cluster
[cite:@steyaert2023systematic] définit les régions homologues en fusionnant
- les gènes codant ayant des pseudogènes
- les régions bien couvertes avec une qualité d'alignement = 0 en utilisant 250 exomes
* Tâches :
- biblio
- porter script en hg38
- test sur NA12878 en attendant accès au cluster
Données 1000 genomes 30x https://www.internationalgenome.org/data-portal/data-collection/30x-grch38 = 3200 échantillons
* Problèmes avec [cite:@steyaert2023systematic] :
- en hg19 et ne donne pas le code pour les générer
- les filtres après l'appel de variant utilisent la cohorte
- les régions homologues sont définies avec la cohorte (régions bien couvertes mais avec une mauvaise qualité d'alignement)
- la détection de délétions ou gène conversion utilise toute la cohorte
- exome seul (en génome on aura beaucoup de régions intergéniques...)
* Pistes
- liftover directement
- se limiter au pseudogènes ENCODE ?
* Données fournies
Supplementary Data 23 : régions où est fait l'appel de variant
Supplementary Data 24 : régions d'où sont extraites les reads
Supplementary Data 25 : régions à masquer dans le génome
Supplementary Data 26 : sous-régions pour délétion et gene conversion
* [[denote:20240716T104934][Bibliographie pseudogène]]
* Patient test
** MR-2202491: chr1:155235252A>G sur /GBA/ : probablement recombinaison avec pseudogène /GBAP1.
** Patient test Auragen
*** MR-24000544 IKBKG chrX g.154560563_154560564del
*** MR-2202491: chr1:155235252A>G sur /GBA/ : probablement recombinaison avec pseudogène /GBAP1.
**** TODO [#A] Integrating gene annotation with orthology inference at scale
SCHEDULED: <2024-07-30 Tue>
**** DONE [#A] Integrating gene annotation with orthology inference at scale
CLOSED: [2024-08-06 mar. 10:19] SCHEDULED: <2024-07-30 Tue>