#+title:      Iterative gene prediction and pseudogene removal improves genome annotation
#+date:       [2024-07-17 Wed 14:47]
#+filetags:   :bib:pseudogène:
#+identifier: 20240717T144733
#+reference:  van2006ppfinder


Non maintenu, code source https://mblab.wustl.edu/software/download/ppfinder.1.tar.gz

Processed seuls
Utilise N-SCAN pour estimer le gène parent

* Méthode
pour un "modèle de gène", essaie de trouver un gène parent qui aurait donné le pseudogène par rétroposition
NB: exemple de modèle : exon pseudogene + exon1 + eon2
** Liste candidats
*** Technique 1: introns
Principe : ceux qui ne sont pas dérivé du pseudogene = match seulement eux-même et gène de la même famille.
Pseudogène vont matcher sur leur parent

1. BLASTn du gène sur une base de données (même organisme)
2. on choisit le meilleur transcrit
3. on récupère la séquence du parent potentiel
4. ce parent est aligné
5. si les "trous" dans l'alignement ne correspondent pas introns du gène, c'est potentiellement un pseudogene

Limite: si le segment aligne sur un seul exon. Ou si le parent a un seul exon (mais apparement géré au cas par cas dans le supplementary)
*** Technique 2 : conserved synteny
 1. Pour chaque exon du "gene model", BLASTp sur une base de donnée de protéine
 2. on garde les hits > 65% sur >= 9 acides aminés
 3. Si les hit n'ent pas la même position que le modèle, potentiel pseudogene (nombreux résultats !)
 4. comparaison avec un autre génome (ci: souris).
    - tBLASTn pour la comparaison
    - correspondance avec synteny map UCSC (meilleur alignement de la souris pour tout le génome humain)
    - si pas de correspondance dans une région orthologue (= dérivée d'un même ancêtre), pseudogène probable
      Le principe est que les pseudogène vont disparaître avec le temps

Limite : ne gère pas les pseudogène ancestraux
** Filtres
Faux positifs
- technique 1 : les gènes de la même famille sont différents sont >= 1 introns
- technique 2 : se gène prédit appartient à une famille et avec >= 1 exons en dehors des régions de "conserverd synteny"

Vérification: gène parent aligné sur la région génomique autour du candidats
Les vrai pseudogène ont une longueur moyenne de "trous" (introns potentiels) <= 2*longueur moyenne des segments alignés (exons potentiels)

Ce filtre surprime les "processed pseudogene"
* Tests
- CCDS: on s'attend à avoir 0, en pratieque 0.3% = ce sont des rétrogene fonctionnels (car ils ont des "expressed sequence tags = EST"). Autres = petits introns
- track UCSCS "vega pseudogene" (groupe "Havana", désormais fait partie d'ENSEMBL) : 78%
- ENSEMBL: environ 50% ?