:PROPERTIES: :ID: 03085765-8f7b-4480-8727-aa5f7aa8381f :END: #+title: Mclaren * Contexte - Interprétation souvent basée sur impact sur transcrit ou protéine - Donc dépend de l'annotation du transcrit et de la localisationo du variant par rapport aux régions codantes pour des protéines ou 2 - 2 sources principales: 1. GENCODE : dépend du génome de référence, vise à représenter tous les isoformes pour tous les tissus et étapes du développement -> en moyenne 4 transcrit par gène codant. Parfois plusieur dizaines de transcrit pour un variant 2. Refseq (indépendant) - Attention aux haplotype alternatifs dans le génome de référence : 1 variant peut être associé à plusieurs ALT mais n'avoir un codon que sur l'un d'entre eux... Exemple: https://www.ncbi.nlm.nih.gov/snp/rs150580082#hgvs_tab C>G,T: la référence est C => codon stop en G seulement. Or il y a G et T sur des transcrits alternatifs HGVS: basé sur trascnit donc confusion possible + nombreuses annotation possibles * VEP - annotation pour SNVi, indel, substiution multiple bp, microsatellite, tandem repeat + structural variant > 50 nucléotide (not. CNV) - GRCh38 + 37 + T2T (unstable) - effet sur trnascrit, protéine et région régulatrice - si variant connu, allele fréquence + information (phénotype) - utilisable dès qu'il y a un génome + ensemble de gène annoté - chaque version est liée à une release d'Ensembl - open source + libre d'utilisation Annotation ** Annotation de transcrit - Annotation selon - Ensembl = GENCODE (fusion des prédictions de transcrits d'Ensemble basé sur des preuves + annotation manuel, pour L'homme) - Refseq - Une ligne par allèle et par caractéristique génome (transcrit, zone régulatrice...) - Problème : pas de consensus sur filtre -> à faire par l'utilisateur Sortie de VEP pour gène et transcrit (Table 2 article) - identification du gène affecté : identifiant Ensembl, nom "commun" du gène (ex: HGNC) - identifiant du transcript: Ensemble, NCBI Refseq - identifiant pour CCDS (Consensus coding sequence) - biotype selon GENCODE (codant pour protéine, pseudogène... voir https://www.gencodegenes.org/pages/biotypes.html ) - coordonnées du variant : cDNA, processed coding sequence (CDS) - distance au transcrit s'il est en dehors des bornes - conséquence sur transcrit - nombre d'exons et introns touchés - Transcript Support Level (TLS) qui indique la fiabilité des modèles de transcrit - Annotation principle splice isoformos (APPRIS) pour l'annotation de transcrit sur épissage alternatif (modèles informnatique) ** Annotation protéique Liste: - identifiant proétiqiue : Ensembl, Refseq, UniProt (généré automatiquement, nettoyé la main ou combiné) - coordonées protéique - codon de référence et alternatif - acides aminés de référence et alternatif - score SIFT et PolyPhen2 (prédictif de pathogénicitié) - domaines protéiques - notation HGVS Score pré-calculé pour toutes les combinaisons, mise à jour quand nécessaifre Autres scores (FATHMM, mutationtaster... disponibles via plugins) ** Annotation variants non-codants Impact si éléments régulateurs de la transcription/traduction -> VEP donne les ARNs non codant, zone régulatrices génomique ou motifs d'attache pour facteur de transcription (transcription factor binding motif) + changement sur score consensus. Source = ensembl regulator build (ENCODE + BLUEPRINT + NIH epigenomics roadmap). Autres scores disponibles via plugin: CADD ** Fréquence, phénotype dbSNP + autres source not. COSMIC (somatique, HGMD + variants structures et CNV de "Database of Genomic Variants" fréquence 10000 génome, exac omim, orphanet, gwas # Input, output - input: VCF, identifiants (dbSNP, HGVS, refseq, ensembl) - output: HTML, text (vcf, tsv, json) # Performance 4 coeurs: 4millions de variants : 62min Plus lent que la compétition: - snpeff est écrit en java - annovar : moins d'annotation, Perl | Type | Temps d'exécution | | ----- | ------------------| | Annovar | 21min50 s (3415 v/s) | SnpEff | 46min39 s (1598 v/s) | SnpEff (threaded)* | 10min28 s (7121 v/s) | VEP | 62min9 s (1200 v/s)