:PROPERTIES:
:ID:       fc204893-0349-4693-a490-aecf1f659d4f
:ROAM_REFS: @cabanac2023p
:END:
#+title: Cabanac, Sébastien and Mathe, Catherine and Dunand, Christophe :: P-GRe: An efficient pipeline to maximised pseudogene prediction in plants/eucaryotes

Pipeilen pour pseudogène mais sur les plantes
Le plus récent. Github: https://github.com/sebc31/P-GRe
Code non documenté marqué "WIP"

Input: génome et annotation GFF
Output: séquence génomique des pseudogène + pseudo-coding  sequence

* Contexte
15% des pseudogène sont transcrit chez la souris
et peuvent modifier la régulation post-transcription (RNAi)
* Bibliographie
Logiciels existants se base sur l'homologie entre les séquence protéique connue et les séquences de pseudoègen
- alignement des séquences protéiner pour avoir une position apporximation des pesudoègen
- celle avec la plus haut similarité = encodé par le gène parènt (hypothèse : duplication de gènes fonctionner)
- alignemet plus fin entre les hit et les séquences parents
Ex : [cite:@zhang2006pseudopipe], zhou 2009 https://academic.oup.com/plphys/article/151/1/3/6108462

Plusieurs sont spécifiques à un organisme :
- prokaryote [cite:@syber2022pseudopipe] , psi-phi (lerat 2004)
- à partir de rétrotranspotion de transcrit [cite:@van2006ppfinder] ,[cite:@abrahamsson22ppsifinder]
Ceux qui travaille sur tous les organismes sont rares et produisent ldes résuiltants différent (protéine apporochée vs séquence pseudogene

Avantagase: pas besoin d'une base de protéine
* Méthode
1. Position approchée de pseudogène
   - GFFRead pour générer le protéines depuis génome et GFF
   - protéine alignée sur le génome (tblastn) : les alignements sont filtré + sélectionné
2. Prédiction de la structure des pseudogènes
   1. frameshift: quand 2 alignement d'une protéine se recouvrent avec overlap non divisible par 3
      les 2 peptides correspondant à l'overlap sont décomposé en "chimère" (on enlève un acide aminé à la fois) qui sont aligné sur la protéine code par le parent -> celle avec le meilleur alignement est retenue
   2. pour gérer les quelques bp manquantes au début du pseudo-exon, les alignement sont étunde jusqu'à l'alignement suivant. (~ pseudo-introns). Correction de faux alignements
      1. marqués par un processus dit pseudo-Lindley
         - principe: score incrémenté tant que l'acide aminé est aligné, -1 sinon (min = 0, max = 10)
         - permet de définir les introns
         - les acides aminés encodé par le peusodogène qui s'aligne avec al protéine parente dans un intro sont flaggés comme mal aligné
      2. Correction de ces acide aminé mal aligné avec le GFF
   3. Recherche des sites d'épissages GT/AT cannonique à +/- 9bp au début et à la fin des introns pour raffiner
3. recontruction des extrémité N- et C-terminale
   1. les positions codons start et stop sont connues avec l'alignement local
   2. pour les codon start, on cherche donc un codon start (ATG) ou dégénéré (1 subsitution dans ATG). Si non trouvé à la position attendu, on se déplace vers le premier pseudo-codant exon
   3. Idem poru codon stop mais vers la fin ddu pseudo-exon
4. Fusion des pseudogènes séparés de moins de 2.5kb et sans codon stop terminal (permet de reconstruire ceux avec des exons différents qui correspnodt à des protéines parentes proche, + pseudogone chimérique)
** Catégorisation
- copie complète du parent ou seulement fragment
- type : chimérique, dupliqué, rétro)
* Résultat
Méthod:  A. thaliana
Sensibilité en considérant que le pseudogène est trouvé si >= 60% longueur overlap (même métrique que pour [cite:@zhang2006pseudopipe][cite:@ijms17121991]  )
Qualité : alignement des pseudogene avec blastp sur protéome. Pour le meilleur alignement, la séquence protéique a été alignée "semi-globally" avec la séquence protéique du pseudogene (pairwise2) -> score d'alignement

84.3%  (légèrement supérieur à [cite:@zhang2006pseudopipe] )
Meilleur qualité que ceux annotés apparement