#+title: Pseudogenes and Their Genome-Wide Prediction in Plants #+date: [2024-07-16 mar. 16:58] #+filetags: :article:bib: #+identifier: 20240716T165859 #+reference: ijms17121991 2016. Comparaison de 3 pipeline ici: pseudopipelie shiu et PSF * Contexte Image avec 3 catégories - processed (ou retro): transcrit ARNm puis transcription inverse et intégré dans le génome - duplicated : duplicaiton d'un gène fonctionne + acquisition mutation délétère avec au final perte capacité à code une protéine - unitary (gène accumule mutations) : perte de fonction mais sans duplication Il faut y ajouter les pseudègen fonctionnels | Processed | Duplicated | |-------------------------------------------------+---------------------------------------------------------| | Pas d'intron ni promoteur | Promoteur, exon-intron, structures régulatrices en amon | | queue polyA en 3' | pas de queue polyA en 3' | | "direct repeats" adjacente site d'insertion | non | | emplacement différent du parent le plus souvent | parfois avec parent | | tronqué en 3' ou 5' | Tronqué 3' | | Souvent plus court | Sovuent plus long | Humain: 82% des pseudogène du chromosome 22 sont rétrotransposition , plus rare plante (23% pseudogène riz)) Utile pour étude évolution ** Prédiction "Non-fonctionnalité" est difficile à valider et ne fonctionne pas pour tous les gènes. Approche prédominante basée sur 1. l'homologie entre un pseudogène et un vrai gène (parent/fonctionnel) 2. mutation déléteère 3. défaut intros Difficulté d'obtenir un ensemble de gènes parents - utilisation de protéines fonctionnels, par ex. à partir d'ENSEMBL - annotation de "qualité" à partir de logiciels (mais peusdo-gene possible). Les auteurs conseillent FGENESH [cite:@solovyev2006automatic] - pour enlever les pseuodgène - utilisation de transcripts (majorité ne le sont pas) avec annotation ARNm - riz : seul les gènes "de confiance" - * Bibliographie NB: erreur de ref pour retrofinder - ppfinder [cite:@van2006ppfinder] : ADN codange pour déterminer les gènes parents puis utilisation des parents pour décteurs les locus sans intros - pseudofinder [cite:@zheng2007pseudogenes] (ne pas confondre avec [cite:@syber2022pseudopipe] ) homologue de gène fonctionnels : classification par analyse BLASTz -> non dispo en ligne ? - rétrofinder [cite:@Baertsch_2008] : alignement ARNm (Genbank) sur génome (BLASTz), détection de caractéristiques biologisue, pondération heuristique - GIS-PET: pas un pipeline (et pas de BLAT dans l'article ?) - pseudopipe [cite:@zhang2006pseudopipe] : à partir de la séquence protéique, on trouve les pseudogène dans les régions intergénique marqué par des repeat. Puis éralignement pour valider - pipeline de shiu (sic) [cite:@zou2009evolutionary]: idem pseudopipe - PSF [cite:@solovyev2006automatic] idem pseudopipe * Algorithme (en général) 1. Détermination d'un ensemble de gène parent: les auteurs ne dient pas comment eux on fait... 2. Dans le génome, on masque les régions répétées et gènes 3. tBLASTn (filtre read redondants) -> candidats dans régions intergénique en se basant sur homologie 4. alignement des candidats sur parents 5. vérification intron, queue polA * Comparaison des pipeline - Arabidospi thaliana - 4108, 3531 and 801 pseudogenes were predicted by PseudoPipe, Shiu’s pipeline and PSF - validé si > 60% pseudogène connu (924 sont connu sur cette plante)) - per f: 81.3%, 78.9 et 6.0% resp -> améliori si on suppriment UPG