#+title:      sideRETRO: a pipeline for identifying somatic and polymorphic insertions of processed pseudogenes or retrocopies
#+date:       [2024-07-17 Wed 14:43]
#+filetags:   :bib:pseudogène:
#+identifier: 20240717T144330
#+reference:  miller2021sideretro


Code C https://github.com/galantelab/sideRETRO

Seulement les "unfixed retropcopies" (somatically inserted ou polymorphiques)

Input: bam/sam/cram,génome de référence et transcriptome

* Algorithme
1. sélections paires mal alignée
   - soit "discordants" = trop loins, soit sur des chormosomes distent
   - soit "split read"
2. retient ceux qui sont dans une région exonique (gène parent) et son "mate" (potentiellement oint d'insertion)
3. groupe ces reads avec dbscan (clustering) pour trouver le gèn parnet + ponits d'insertion

   Otuput: gène parent, point d'insertion, brin, génotype


* Données simulées
Sur 100 génomes humaines, ~31-45 rétroCNV par génoome avec error
N'identifie pas ceux dans régions très répétes mais 79/86 des intro, not. régions LINE9SINE

Testé sur 1000 genomes
- 5 individus avec génomes et exomes différents: 5 candidats -> 3 validés
  - 20 dans génomes
  - 6 exomes
  - retrouve les 3 validés dans la litérature (1 manqué exomes)
- cohorte de 1000 individuts