:PROPERTIES: :ID: e76b1c60-3017-4cbe-98a4-58cdd8db1ac1 :ROAM_REFS: @abrahamsson2022ppsifinder :END: #+title: Abrahamsson, Sanna and Eiengård, Frida and Rohlin, Anna and Dávila López, Marcela :: P$\Psi$Finder: a practical tool for the identification and visualization of novel pseudogenes in DNA sequencing data Classification : - unitary = dévire d'un gène codant pour une protéine qui ne code plus pour une protéine suite à des mutations spontanées - upnrocessed = duplication avec accumulation -> traduction impossible - processed = rétrotranspotition et intégration d'aun ARNmessage) - pas de promoteur 5' - mais queue 3' polyA (attention certains n'en n'ont pas) Scope - seulement processed pseudogene * Biblio - approche basée sur homology (GWAS) - non disponible ou utilisent des outils abandonnées - pseudopipe [cite:@zhang2006pseudopipe] - retrofinder [cite:@baertsch2008retrofinder] - ppfinder [cite:@van2006ppfinder] - [cite:@cooke2014processed] : somatique : aligne data sur génome et transcriptome mais non disponible - sideretro [cite:@miller2021sideretro] avec génome et transcriptome de référence, détecte insertion processed pseudogene (de novo somatique + insertion polymher). Algorithme = clustering "density based * Algorithm 1. Alignement avec STAR 2. Sélection des candidats : spliced reads sur des jonctions exons-exons 3. Sélection des sites d'insertion : on extrait - les paires chimérique = un read sur la zone d'insertion et un read sur la zone codante. En pratique, on sélectionne les paires qui sont alignés sur des chromosomes différents ou à des distances plus grandes qu'attendu [[file:~/org/papers/ppsifinder-spliced.png]] - les reads chimérques = ceux qui sont à la jontion insertion-zone codante. En pratique, les reads soft-clippés qui sont alignés à 2 endroits différents [[file:~/org/papers/ppsifinder-chimeric.png]] 3. L'intersection des 2 donne le résultat * Validation 218 échantillons (sang) panel 28 gènes de cancer 423 processed pseudogene détecté sur 209 échantillons (manque 9 ??) moitié intronique, moité intergénique (1% dans un exon) Note: détection des sites d'insertion n'a pas besoin d'avoir les paires *et* reads chimériques mais les 2 augmente la fiabilité Sélection de ceux avec les 2 inseréré dans exon ou intronique -> CBX3 et SMAD (pseudogene) -> validé en sanger ** CBX3 chimèrique avec C15ORF57 en RNASeq sur lymphoblaste (+ autres tissus) Ici, étude des breakpoint prédits de ces 2 génes Résultat: insertion unique et duplication sur l'un des points de cassure mais rien sur autre Inséré de manière inversé dans la même orinetation qu C15ORF57 -> gène de fusion possible ** SMAD45 Impac clinique car perturbe diag (cancer pancrétaique notamment) Sur 1 point de cassure : délétion 3bp sur l'autre : queue polA et dup de 4bp ** Étude de la profondeur Downsampling sur les 4 échantillons validé en sanger -> il faut >= 144X ** Performances Sur données simulées avec wgsim * Performances (github) Sur le panel ci-dessus, couverture de 500x : ~50min pour le script sans alignement, 2G * Code https://github.com/SannaAb/Pseudogenes Dépendences : python, (STAR), Bedtools, R ( pour les plots), samtools Note: peut travailler sur le BAM directement d'après la doc donc on peut se passer de l'aligement