#+title: Iterative gene prediction and pseudogene removal improves genome annotation #+date: [2024-07-17 Wed 14:47] #+filetags: :bib:pseudogène: #+identifier: 20240717T144733 #+reference: van2006ppfinder Non maintenu, code source https://mblab.wustl.edu/software/download/ppfinder.1.tar.gz Processed seuls Utilise N-SCAN pour estimer le gène parent * Méthode pour un "modèle de gène", essaie de trouver un gène parent qui aurait donné le pseudogène par rétroposition NB: exemple de modèle : exon pseudogene + exon1 + eon2 ** Liste candidats *** Technique 1: introns Principe : ceux qui ne sont pas dérivé du pseudogene = match seulement eux-même et gène de la même famille. Pseudogène vont matcher sur leur parent 1. BLASTn du gène sur une base de données (même organisme) 2. on choisit le meilleur transcrit 3. on récupère la séquence du parent potentiel 4. ce parent est aligné 5. si les "trous" dans l'alignement ne correspondent pas introns du gène, c'est potentiellement un pseudogene Limite: si le segment aligne sur un seul exon. Ou si le parent a un seul exon (mais apparement géré au cas par cas dans le supplementary) *** Technique 2 : conserved synteny 1. Pour chaque exon du "gene model", BLASTp sur une base de donnée de protéine 2. on garde les hits > 65% sur >= 9 acides aminés 3. Si les hit n'ent pas la même position que le modèle, potentiel pseudogene (nombreux résultats !) 4. comparaison avec un autre génome (ci: souris). - tBLASTn pour la comparaison - correspondance avec synteny map UCSC (meilleur alignement de la souris pour tout le génome humain) - si pas de correspondance dans une région orthologue (= dérivée d'un même ancêtre), pseudogène probable Le principe est que les pseudogène vont disparaître avec le temps Limite : ne gère pas les pseudogène ancestraux ** Filtres Faux positifs - technique 1 : les gènes de la même famille sont différents sont >= 1 introns - technique 2 : se gène prédit appartient à une famille et avec >= 1 exons en dehors des régions de "conserverd synteny" Vérification: gène parent aligné sur la région génomique autour du candidats Les vrai pseudogène ont une longueur moyenne de "trous" (introns potentiels) <= 2*longueur moyenne des segments alignés (exons potentiels) Ce filtre surprime les "processed pseudogene" * Tests - CCDS: on s'attend à avoir 0, en pratieque 0.3% = ce sont des rétrogene fonctionnels (car ils ont des "expressed sequence tags = EST"). Autres = petits introns - track UCSCS "vega pseudogene" (groupe "Havana", désormais fait partie d'ENSEMBL) : 78% - ENSEMBL: environ 50% ?