:PROPERTIES:
:ID:       e76b1c60-3017-4cbe-98a4-58cdd8db1ac1
:ROAM_REFS: @abrahamsson2022ppsifinder
:END:
#+title: Abrahamsson, Sanna and Eiengård, Frida and Rohlin, Anna and Dávila López, Marcela :: P$\Psi$Finder: a practical tool for the identification and visualization of novel pseudogenes in DNA sequencing data

Classification :
- unitary = dévire d'un gène codant pour une protéine qui ne code plus pour une protéine suite à des mutations spontanées
- upnrocessed = duplication avec accumulation -> traduction impossible
- processed = rétrotranspotition et intégration d'aun ARNmessage)
  - pas de promoteur 5'
  - mais queue 3' polyA (attention certains n'en n'ont pas)

Scope
- seulement processed pseudogene

* Biblio
- approche basée sur homology (GWAS)
- non disponible ou utilisent des outils abandonnées
  - pseudopipe [cite:@zhang2006pseudopipe]
  - retrofinder [cite:@baertsch2008retrofinder]
  - ppfinder [cite:@van2006ppfinder]
- [cite:@cooke2014processed]  : somatique : aligne data sur génome et transcriptome mais non disponible
- sideretro [cite:@miller2021sideretro] avec génome et transcriptome de référence, détecte insertion processed pseudogene (de novo somatique + insertion polymher). Algorithme = clustering "density based
* Algorithm
1. Alignement avec STAR
2. Sélection des candidats : spliced reads sur des jonctions exons-exons
3. Sélection des sites d'insertion : on extrait
   - les paires chimérique = un read sur la zone d'insertion et un read sur la zone codante. En pratique, on sélectionne les paires qui sont alignés sur des chromosomes différents ou à des distances plus grandes qu'attendu
    [[file:~/org/papers/ppsifinder-spliced.png]]
   - les reads chimérques = ceux qui sont à la jontion insertion-zone codante. En pratique, les reads soft-clippés qui sont alignés à 2 endroits différents
    [[file:~/org/papers/ppsifinder-chimeric.png]]
3. L'intersection des 2 donne le résultat
* Validation
218 échantillons (sang)
panel 28 gènes de cancer
423 processed pseudogene détecté sur 209 échantillons (manque 9 ??)
moitié intronique, moité intergénique (1% dans un exon)

Note: détection des sites d'insertion n'a pas besoin d'avoir les paires *et* reads chimériques mais les 2 augmente la fiabilité

Sélection de ceux avec les 2 inseréré dans exon ou intronique -> CBX3 et SMAD (pseudogene) -> validé en sanger
** CBX3
chimèrique avec C15ORF57 en RNASeq sur lymphoblaste (+ autres tissus)
Ici, étude des breakpoint prédits de ces 2 génes
Résultat: insertion unique et duplication sur l'un des points de cassure mais rien sur autre
Inséré de manière inversé dans la même orinetation qu C15ORF57 -> gène de fusion possible
** SMAD45
Impac clinique car perturbe diag (cancer pancrétaique notamment)
Sur 1 point de cassure : délétion 3bp
sur l'autre : queue polA et dup de 4bp
** Étude de la profondeur
Downsampling sur les 4 échantillons validé en sanger -> il faut >= 144X
** Performances
Sur données simulées avec wgsim
* Performances (github)
Sur le panel ci-dessus, couverture de 500x : ~50min pour le script sans alignement, 2G
* Code
https://github.com/SannaAb/Pseudogenes
Dépendences : python, (STAR), Bedtools, R ( pour les plots), samtools
Note: peut travailler sur le BAM directement d'après la doc donc on peut se passer de l'aligement