#+title: P-GRe: An efficient pipeline to maximised pseudogene prediction in plants/eucaryotes #+date: [2024-07-17 Wed 14:38] #+filetags: :bib:pseudogène: #+identifier: 20240717T143813 #+reference: cabanac2023p Pipeline pour pseudogène mais sur les plantes Le plus récent. Github: https://github.com/sebc31/P-GRe Code non documenté marqué "WIP" Input: génome et annotation GFF Output: séquence génomique des pseudogène + pseudo-coding sequence * Contexte 15% des pseudogène sont transcrit chez la souris et peuvent modifier la régulation post-transcription (RNAi) * Bibliographie Logiciels existants se base sur l'homologie entre les séquence protéique connue et les séquences de pseudoègen - alignement des séquences protéiner pour avoir une position apporximation des pesudoègen - celle avec la plus haut similarité = encodé par le gène parènt (hypothèse : duplication de gènes fonctionner) - alignemet plus fin entre les hit et les séquences parents Ex : [cite:@zhang2006pseudopipe], zhou 2009 https://academic.oup.com/plphys/article/151/1/3/6108462 Plusieurs sont spécifiques à un organisme : - prokaryote [cite:@syber2022pseudopipe] , psi-phi (lerat 2004) - à partir de rétrotranspotion de transcrit [cite:@van2006ppfinder] ,[cite:@abrahamsson22ppsifinder] Ceux qui travaille sur tous les organismes sont rares et produisent ldes résuiltants différent (protéine apporochée vs séquence pseudogene Avantagase: pas besoin d'une base de protéine * Méthode 1. Position approchée de pseudogène - GFFRead pour générer le protéines depuis génome et GFF - protéine alignée sur le génome (tblastn) : les alignements sont filtré + sélectionné 2. Prédiction de la structure des pseudogènes 1. frameshift: quand 2 alignement d'une protéine se recouvrent avec overlap non divisible par 3 les 2 peptides correspondant à l'overlap sont décomposé en "chimère" (on enlève un acide aminé à la fois) qui sont aligné sur la protéine code par le parent -> celle avec le meilleur alignement est retenue 2. pour gérer les quelques bp manquantes au début du pseudo-exon, les alignement sont étunde jusqu'à l'alignement suivant. (~ pseudo-introns). Correction de faux alignements 1. marqués par un processus dit pseudo-Lindley - principe: score incrémenté tant que l'acide aminé est aligné, -1 sinon (min = 0, max = 10) - permet de définir les introns - les acides aminés encodé par le peusodogène qui s'aligne avec al protéine parente dans un intro sont flaggés comme mal aligné 2. Correction de ces acide aminé mal aligné avec le GFF 3. Recherche des sites d'épissages GT/AT cannonique à +/- 9bp au début et à la fin des introns pour raffiner 3. recontruction des extrémité N- et C-terminale 1. les positions codons start et stop sont connues avec l'alignement local 2. pour les codon start, on cherche donc un codon start (ATG) ou dégénéré (1 subsitution dans ATG). Si non trouvé à la position attendu, on se déplace vers le premier pseudo-codant exon 3. Idem poru codon stop mais vers la fin ddu pseudo-exon 4. Fusion des pseudogènes séparés de moins de 2.5kb et sans codon stop terminal (permet de reconstruire ceux avec des exons différents qui correspnodt à des protéines parentes proche, + pseudogone chimérique) ** Catégorisation - copie complète du parent ou seulement fragment - type : chimérique, dupliqué, rétro) * Résultat Méthod: A. thaliana Sensibilité en considérant que le pseudogène est trouvé si >= 60% longueur overlap (même métrique que pour [cite:@zhang2006pseudopipe][cite:@ijms17121991] ) Qualité : alignement des pseudogene avec blastp sur protéome. Pour le meilleur alignement, la séquence protéique a été alignée "semi-globally" avec la séquence protéique du pseudogene (pairwise2) -> score d'alignement 84.3% (légèrement supérieur à [cite:@zhang2006pseudopipe] ) Meilleur qualité que ceux annotés apparement