#+title: Automatic annotation of eukaryotic genes, pseudogenes and promoters #+date: [2024-07-16 mar. 17:17] #+filetags: :pseudègene:psf:bib: #+identifier: 20240716T171712 #+reference: solovyev2006automatic Code source : non disponible ? on a une version linux mais en essai et sans PSF ? https://www.molquest.com/molquest.phtml?topic=downloads Workshop de prédiction de gène organisé par Encode - pipeline Fgenesh++ = identifie 91 nucléotide codant (spécificité 90%) - PSF = programme de Softberry pour trouver pseudogène : trouve 90% des pseudogène annoté manuellement - test : référence de 145 pseudègen HAVANA -> 81% retrouvé Algorithme 1. détection de gène (ici Fgenesh++) : pour un ensemble de séquence protéine, on sélectionne les meilleurs résultats par protéine mappé -> pargen 2. candidats: pour chaque protéine 1. alignement > seuil 2. portion siginficative de la séquence poroténie 3. alignement différent du gène parent 4. au moins un évènement parmi : - atteinte ORF (>= frameshit ou codon stop) - un seul exon avec site poly-A (site poly-A trop proche d'une extrémité 3' d'un alignement mais l'extrémité de la séquence protéique est alignée sur le dernier acide aminé et un exon couvre 95% séquence protéique) - perte d'introns (couverture après alignement >= 95% et moins d'exons que dans le parent) - séquence protéique non conservée (ratio remplacement non-synonyme/synomique > 0.5 (par rappor taux parent, calculé selon un article)