:PROPERTIES:
:ID:       bb146ba2-d435-435e-8056-e7e6fa407a59
:END:
#+title: Aganezov2022

NB: 229Mb sont "non-syntenique" = ne s'alignent pas de manière linéaire en GRCh38 sur un intervalle de 1Mbp (ex: inversion)
* Résultats
- Héritage
  - GRCh38: 1 indivu représente 72:6% du génome (56% africain, 28.1% Européan), le second plus gros contributeur est 5.5% majoritairement asie east
  - T2T : principalement européenne
  - les 2 ont des "introgression" de Néanderthal
- problème de GRCh38 : aux bornes des clones utilisés, il y a des haplotypes de structures anormales -> représente des haplotypes rare pour un individu mais à une fréquence non représentative de la population:
  - discordance GRCh38 et 1000 genomes et beaucoup plus rares en T2T
  - et ce sont bien aux bornes des clones BAC
- correction false duplications
  - méthode : examen de "cluster" de variants hétérozygotes (CHM est homozygote...) en alignant sur GRCh38
  - ces zones sont associées à des sgemental duplications, centromère ou problèmes dans gRCh38
  - elles contiennent également des variants marqué par gnomad comme "beaucoup trop hétérozygote" (23%)
  - après liftover T2T: 48 gènes codant (dont 14 complement contenu) dont DUSP22 (régulation immune), KMT2C (syndrome d Kleefstrah)
  - identifié zones marqué comme duplications mais non T2T (22 gènes codants)
- liftover clinvar : 99.8% soit > 800 000 variants (dont 99.6% des patho/probablement patho). Ceux qui ont échoué sont du à des indel différents entre GRCh38 et T2T ou bien à un liftover difficile
- test sur 1000 genomes
  - aligner (bwa mem) 0.97% en plus avec taux d'erreur diminué et couverture plus uniforme et charactéristiques. NB: africains = taux de mismatch le plus élevé
  - appel de variant (haplytype caller):
    - moins de variants par échantillions, attribué à une diminution des allèles rares, erreurs de consense et structurels (surtout pour non-africains peut-ête parce que 70% de gRCh38 vient d'un individu d'ascendace afro-européeenne et les africains ont plus de variants rares)
    - ne proposent pas de faire l'appel de variant en T2T et lifter en 38 (si l'allèle de référence n'est pas dans l'échantilon par exemple)
    - analyse statitisque : moins de variants de mauvaise qualité, moins de variant discordants au niveau mendelien (chez les enfants mais pas chez les parents, homozygote chez parent mais pas chez les enfants)
    - variation de la distribution des AF : surtout rare < 0.05, intermediate et fixé ou quasi fixé. Ces derniers sont du à un variant "privé" d'un donneur ou d'une erreur de GRCh38 donc normal qu'il y en ait moins en T2T. Ceux ou tous les donneur sont hétérozygote : surtout du à des correction dans les segmental duplication fusionné (enrichi en paralag spécific variant hétérozygote). Ces 2 catégories sont la majeure partie
  - long read:  améliore mapping, balance indel apparent et aide de novo SV ou SV dans séquence non résolue
  - régions non résolues précédemment
    - région no synthenize : 73-78% des SNVs avec illumina sont concordants avec long-read
    - tests de ces régions sur le trio de GIAB et le trio du personal genome project en comparant illumian avec pacbio hifi
      - : recall semblable et bas (21-28, 21-25) mais restreint aux duplications fusonnées de 38: 98-99 vs 64-67).
      - correction des faux duplicats : 1% -> 57-68% en T2T (recall) et 76-95 -> 98-99 pour précision
  - impact clinique
    - il existe des variants "délétère" dans le génome de référence qui peut donc altérer l'interprétation d'un variant avec des efforts pour les suppriméer (NB: les citations n'ont pas l'air de le dire clairement...)
      - test : alignement avec dipcall:: 210 variants potentiellement perte de fonction[fn:6] identifiés sur 31 gènes d'intérêt clinique[fn:7]. 158 sur 1 individu et la plupart AF=0.47 donc probablement bien toléré. Autres = indel plus grand ou allèle rares. Les 10 varintas sur gènes d'intérêt clinique diréves de paralogue dupliqué
    - test sur 4964 gènes d'intérêt clinique ([cite:@Wagner_2022])
      - 28 gènes sur régions non résolue /non synthénique
      - 756 gènes touché par allèles rares ou structurelles fauesse (306 T2T) dont plupart semble corrigé en T2T
      - exemple TNNT3 (arthrogrypose): remaniement complexe supposé (GRC a détemriné qu'il y a un problème) -> T2T: région upstream transposé "inversement" proximal du gène, ce qui le place près de TNNI2
      - 17 sur régions probableemnt fusionnée ou dupliquée par erreur. Ex KCNE1 (fausse duplication) qui a une couverture moindre (erreur d'alignement), KCNJ18 (duplication fusonée): mielleur couverture. Discordance entre les 2 référence sur ces gènes
    - benchmark maison en GRCh38 et T2T 269 gènes d'intérêt clinique mais difficiles: dminution FP et FN avec T2T