:PROPERTIES:
:ID:       03085765-8f7b-4480-8727-aa5f7aa8381f
:END:
#+title: Mclaren

* Contexte
- Interprétation souvent basée sur impact sur transcrit ou protéine
  - Donc dépend de l'annotation du transcrit et de la localisationo du variant par rapport aux régions codantes pour des protéines ou 2
  - 2 sources principales: 
    1. GENCODE : dépend du génome de référence, vise à représenter tous les isoformes pour tous les tissus et étapes du développement -> en moyenne 4 transcrit par gène codant. Parfois plusieur dizaines de transcrit pour un variant
    2. Refseq (indépendant)
  - Attention aux haplotype alternatifs dans le génome de référence : 1 variant peut être associé à plusieurs ALT mais n'avoir un codon que sur l'un d'entre eux... 
  Exemple: https://www.ncbi.nlm.nih.gov/snp/rs150580082#hgvs_tab C>G,T: la référence est C => codon stop en G seulement. Or il y a G et T sur des transcrits alternatifs
  HGVS: basé sur trascnit donc confusion possible + nombreuses annotation possibles

* VEP
- annotation pour SNVi, indel, substiution multiple bp, microsatellite, tandem repeat + structural variant > 50 nucléotide (not. CNV)
- GRCh38 + 37 + T2T (unstable)
- effet sur trnascrit, protéine et région régulatrice 
- si variant connu, allele fréquence + information (phénotype)
- utilisable dès qu'il y a un génome + ensemble de gène annoté
- chaque version est liée à une release d'Ensembl
- open source + libre d'utilisation

 Annotation
** Annotation de transcrit
- Annotation selon 
  - Ensembl = GENCODE (fusion des prédictions de transcrits d'Ensemble basé sur des preuves + annotation manuel, pour L'homme)
  - Refseq
- Une ligne par allèle et par caractéristique génome (transcrit, zone régulatrice...)
- Problème : pas de consensus sur filtre -> à faire par l'utilisateur

Sortie de VEP pour gène et transcrit (Table 2 article)
- identification du gène affecté : identifiant Ensembl, nom "commun" du gène (ex: HGNC)
- identifiant du transcript: Ensemble, NCBI Refseq
- identifiant pour CCDS (Consensus coding sequence)
- biotype selon GENCODE (codant pour protéine, pseudogène... voir https://www.gencodegenes.org/pages/biotypes.html )
- coordonnées du variant : cDNA, processed coding sequence (CDS)
- distance au transcrit s'il est en dehors des bornes
- conséquence sur transcrit
- nombre d'exons et introns touchés
- Transcript Support Level (TLS) qui indique la fiabilité des modèles de transcrit
- Annotation principle splice isoformos (APPRIS) pour l'annotation de transcrit sur épissage alternatif (modèles informnatique) 

** Annotation protéique
Liste:
- identifiant proétiqiue : Ensembl, Refseq, UniProt (généré automatiquement, nettoyé la main ou combiné)
- coordonées protéique
- codon de référence et alternatif
- acides aminés de référence et alternatif
- score SIFT et PolyPhen2 (prédictif de pathogénicitié)
- domaines protéiques
- notation HGVS

Score pré-calculé pour toutes les combinaisons, mise à jour quand nécessaifre
Autres scores (FATHMM, mutationtaster... disponibles via plugins)

** Annotation variants non-codants
Impact si éléments régulateurs  de la transcription/traduction -> VEP donne les ARNs non codant, zone régulatrices génomique ou motifs d'attache pour facteur de transcription (transcription factor binding motif) + changement sur score consensus.
Source = ensembl regulator build (ENCODE + BLUEPRINT + NIH epigenomics roadmap).
Autres scores disponibles via plugin: CADD


** Fréquence, phénotype
dbSNP + autres source not. COSMIC (somatique, HGMD + variants structures et CNV de "Database of Genomic Variants"
fréquence 10000 génome, exac
omim, orphanet, gwas

# Input, output
- input: VCF, identifiants (dbSNP, HGVS, refseq, ensembl)
- output: HTML, text (vcf, tsv, json)

# Performance
4 coeurs: 4millions de variants : 62min
Plus lent que la compétition: 
- snpeff est écrit en java 
- annovar : moins d'annotation, Perl
| Type               | Temps d'exécution |
| -----              | ------------------| 
| Annovar            | 21min50 s (3415 v/s)
| SnpEff             | 46min39 s (1598 v/s)
| SnpEff (threaded)* | 10min28 s (7121 v/s)
| VEP                | 62min9 s (1200 v/s)