#+title:      Pseudogenes and Their Genome-Wide Prediction in Plants
#+date:       [2024-07-16 mar. 16:58]
#+filetags:   :article:bib:
#+identifier: 20240716T165859
#+reference:  ijms17121991

2016. Comparaison de 3 pipeline ici: pseudopipelie shiu et PSF

* Contexte
Image avec 3 catégories
- processed (ou retro): transcrit ARNm puis transcription inverse et intégré dans le génome
- duplicated : duplicaiton d'un gène fonctionne + acquisition mutation délétère avec au final perte capacité à code une protéine
- unitary (gène accumule mutations) : perte de fonction mais sans duplication
Il faut y ajouter les pseudègen fonctionnels
  | Processed                                       | Duplicated                                              |
  |-------------------------------------------------+---------------------------------------------------------|
  | Pas d'intron ni promoteur                       | Promoteur, exon-intron, structures régulatrices en amon |
  | queue polyA en 3'                               | pas de queue polyA en 3'                                |
  | "direct repeats" adjacente site d'insertion     | non                                                     |
  | emplacement différent du parent le plus souvent | parfois avec parent                                     |
  | tronqué en 3' ou 5'                             | Tronqué 3'                                              |
  | Souvent plus court                              | Sovuent plus long                                       |

  Humain: 82% des pseudogène du chromosome 22 sont rétrotransposition , plus rare plante  (23% pseudogène riz))
  Utile pour étude évolution
** Prédiction
  "Non-fonctionnalité" est difficile à valider et ne fonctionne pas pour tous les gènes.
  Approche prédominante basée sur
  1. l'homologie entre un pseudogène et un vrai gène (parent/fonctionnel)
  2. mutation déléteère
  3. défaut intros

Difficulté d'obtenir un ensemble de gènes parents
- utilisation de protéines fonctionnels, par ex. à partir d'ENSEMBL
- annotation de "qualité" à partir de logiciels (mais peusdo-gene possible). Les auteurs conseillent FGENESH [cite:@solovyev2006automatic]
- pour enlever les pseuodgène
  - utilisation de transcripts (majorité ne le sont pas) avec annotation ARNm
  - riz : seul les gènes "de confiance"
-

* Bibliographie
NB: erreur de ref pour retrofinder
- ppfinder [cite:@van2006ppfinder]  : ADN codange pour déterminer les gènes parents puis utilisation des parents pour décteurs les locus sans intros
- pseudofinder [cite:@zheng2007pseudogenes] (ne pas confondre avec  [cite:@syber2022pseudopipe] ) homologue de gène fonctionnels : classification par analyse BLASTz -> non dispo en ligne ?
- rétrofinder [cite:@Baertsch_2008] : alignement ARNm (Genbank) sur génome (BLASTz), détection de caractéristiques biologisue, pondération heuristique
- GIS-PET: pas un pipeline (et pas de BLAT dans l'article ?)
- pseudopipe  [cite:@zhang2006pseudopipe] : à partir de la séquence protéique, on trouve les pseudogène dans les régions intergénique marqué par des repeat. Puis éralignement pour valider
- pipeline de shiu (sic) [cite:@zou2009evolutionary]: idem pseudopipe
- PSF [cite:@solovyev2006automatic]  idem pseudopipe

* Algorithme (en général)
1. Détermination d'un ensemble de gène parent: les auteurs ne dient pas comment eux on fait...
2. Dans le génome, on masque les régions répétées et gènes
3. tBLASTn (filtre read redondants) -> candidats dans régions intergénique en se basant sur homologie
4. alignement des candidats sur parents
5. vérification intron, queue polA

* Comparaison des pipeline
- Arabidospi thaliana
-  4108, 3531 and 801 pseudogenes were predicted by PseudoPipe, Shiu’s pipeline and PSF
- validé si > 60% pseudogène connu (924 sont connu sur cette plante))
- per f: 81.3%, 78.9 et 6.0% resp -> améliori si on suppriment UPG