#+title: PseudoPipe: an automated pseudogene identification pipeline #+date: [2024-07-16 mar. 17:08] #+filetags: :article:bib: #+identifier: 20240716T170853 #+reference: zhang2006pseudopipe Code http://pseudogene.org/DOWNLOADS/pipeline_codes/ppipe.tar.gz Algorithme - input: génome (sans région répétée), ensemble des séquences protéiques et coordonnées des gènes fonctionnels - output: annotation des pseudogène 1. identification des régions similaire avec une protéine (BLAST) 1. suppression des overlap >= 30bp avec gènes fonctionnels 2. suppression des doublons (segment avec plusieurs résultat du BLAST) 1. Si mêm protéine, cela est du au fait que BLAST casse des longues séquences homologues en fragments courts 2. sinon, cela est du à des protéines/domaine protéique homologues Partionnement en résultats disjoints. Parmi ceux-ci , on supprime ceux qui sont complètement contenu 3. Dans un ensemble disjoint, on fusionne les différents résultats BLAST. Puis, parmi les ensembles adjacent qui correspondent à la même protéine, ils appartiennent au même pseudogène en fonction de la distance entre les résultats et la distance à la protéine Les trous entre les hits peuvent venir 1. de zones non considérées par BLAST (faible complexité ou détériorée) 2. petit ADN inséré 3. séquence intronique dans les pseudogene dupliqué 4. éléments répété 4. Paternité des pseudogènes : déterminée parmi les protéines paralogues en se basant sur 1. similarité des séquence " 2. meilleur e-value 3. longueur de la protéine (cela suppose que le pseudogene est plus proche du gène parent original) Note: alignement amélioré avec tfasty en considérant la zone d'un pseudo-exon + 3*bp Python