Y2SHXHEPVYTZSL3ZW222W7E76VCBHEVZLFLPAMW6Y5CKAHPK6RPAC
:PROPERTIES:
:ID: ae2809c4-75c3-4c3d-be5f-adcd81900c9f
:END:
#+title: Vue d'ensemble du pipeline
#+filetags: auragen pipeline
[[https://auragen.atlassian.net/wiki/spaces/~7120201ca2598be5ef4936a1110033f28f4fed/pages/1532198915/Vue+d+ensemble+du+pipeline][Image]]
Description:
- [[id:cc54e449-12a7-41d6-832b-33937255be92][Contrôle qualité]] et [[id:117f7970-2579-48e1-b7b0-026b4c9fd0a6][Avertissement]]
- [[id:ee261ae7-3511-46e0-8c9a-ad4318850104][Appel de variant]]
- Cas particuliers : [[id:30db1b6c-6f95-40db-a363-202b20412d4f][Outils pour la détection de variants]] , [[id:92f64d28-a582-484b-8181-ea04c13d850d][ROH]]
- [[id:0b163c10-63c2-44e0-b694-f3749139a3d5][Annotations]]
- [[id:fb97e927-2a25-4733-95a2-c4f520c3c711][Sélection des variants]]
- [[id:d82ebf38-feca-4409-950f-b208f67fae0d][Priorisation]]
- [[id:6698b607-38bb-47de-a729-e2e5ad69b94f][Reportmonster]]
- [[id:4b189666-2c75-4a9b-b95a-00343cb223d0][Aurapport]]
[[id:280a19e2-c571-41dd-b339-5fe9723cefbe][Notations]]
Technique
- [[id:82df331a-bf10-4099-aa1b-24b4dd637a74][Mises à jour]]
- [[id:587dc7c4-1dd5-4068-8d24-6e3825f01e66][Validation]]
Limites et améliorations
[[id:cef32d57-e0a3-4b76-afd2-326830576462][Problèmes connus]]
[[id:8a2278b0-14de-4b46-8770-5f1f9015032f][Améliorations pipeline]]
:PROPERTIES:
:ID: 63bd7afa-411c-4b17-ba37-3fd63d34bda6
:END:
#+title: Visualisation
#+filetags: pipeline
* CNV
- [[id:0638e226-be6b-4612-a107-cf9308110d89][BAF]] : sur 1 million de SNP. Nécessite >= 20 lectures
- "common" = dbVAR avec le compte représentant ceux >= 1% de chevauchement (et non le nombre à une position donnée !)
:PROPERTIES:
:ID: 325fe1c2-98c7-4636-8d9f-72135a566bc7
:END:
#+title: Variants structurels
#+filetags: appelvariants auragen
- principe : au moins 1 lectur3e sur point de cassure avec 2 paires alignable
- manta
- seuls les points de cassure sont reportés
- critères
- >= 1 lecture chevauchant SV
- qualité variant> 500, PASS
- non récurrent (<1% cohorte et population)
- pas homozygote chez apparenté
- limites : région très répétées (centromérique, télomériques, répétées interstitielles), sans support
- Un SV est sur 2 lignes (pour les 2 sens de lecture)
* Types
On ne cite que les paramètres variant parmi: profondeur, orientation, taille insert et softcli
** Délétion
perte de profondeur
insert trop long
[[file:~/org/img/deletion.png]]
** Inversion
reads dans le même sens
insert trop longs
** Insertion intrachromosomique
orientation inversée
inserts trop grands
softclip autour du point d'insertion
[[../img/insertion-intrachromosomique.png]]
** insertion intrachromosomique + inversion
idem insertsion mais orientation read OK
[[file:~/org/img/insertion-inversion.png]]
rupture de profondeur
orientation opposée
taille insert trop court
softclip de part et d'autre
[[../img/duplication.png]]
** duplication + inversion
idem duplication mais lectures dans le même sens et mélange d'insert trop court et trop long
[[../img/duplication-inversion.png]]
** translocation interchromosomique
RAS, juste la couleur
[[../img/translocation.png]]
** insertion interchromosomique équilibrée
insert trop longs
BCD est inséré entre Q et R
[[../img/insertion-interchromosomique.png]]
** insertion interchromosomique + inversion
Comme inversion mais les reads entre les 2 chromosomes sont dans le même sens !
[[../img/insertion-interchromosomique-inversion.png]]
DCB est inséré entre Q et R
** Duplication avec insertion autre chromosome
Juste rupture de profondeur
BCD est dupliqué et inséré entre Q et R
[[../img/duplication-intrachromosomique.png]]
* [[id:0f58767c-07ff-401b-977d-15d454a3ab0f][Exemples de variants structurels]]
* Cas particuliers
[[id:8bdb9dba-1270-4c4c-8192-1012e50c2464][Rétrotranscription de transcription de gène / GRIPS]]
:PROPERTIES:
:ID: d51e599e-4b82-4061-bf29-43b5ea1ce10c
:END:
#+title: Excel variants interprétés
Mission interne: le compléter régulièrement
- si variant absent, rajouter "présent dans rapport" = "non" + comprendre pourquoi
Sert également d'entraînement
* Syntaxe
- en jaune, pré-rempli par script virginie
- surligné en orange = à completer avec hygen
* Attention:
- ne pas enlever le surlignage de *toute la ligne* ("casse" la syntaxe sur la date)
* Remarques
- données incidentes non rendue
- si CNV complexe, un variant suffit mais mettre en commentaire la représentation
* Amélioration
Mettre l'excel dans une base de données
:PROPERTIES:
:ID: 587dc7c4-1dd5-4068-8d24-6e3825f01e66
:END:
#+title: Validation
#+filetags: auragen pipeline
Patients:
- 8 patients présentant des anomalies chromosomiques d’intérêt, difficiles à détecter (SNV, Indel, CNV, SV) : MR-2000939 ; MR-2200677; MR-2101291; MR-2200594; MR2200900; MR-2200958; MR-2201254; MR-2300886
- 3 patients avec DIN (DNA integrity number = mesure par électrophorèse de la dégradation de l'ADN) proche du seuil (6) : MR2201356; MR-2203067; MR-2203174(DEX-Dir-015-01_PFMG CRefIX. Recommandation technique DIN métriques qualité 29.06.20)
- patients de référence
- trio GIAB : NA12878 (mère), NA12882 (Fils) et NA12877 (Père)
- 3 Cas Index : Famille Han (1000 genome project et GIAB, HG00514 Fille), Famille Yoruba (International HapMap Project, ref NA19240 Fille) et Famille Porto Rico (1000 genome project, ref HG00733 Fille)
- Appel de variant : GIAB
- SNV/indel sur NA12878 : F1_score >= 99%. On ne compte que les correspondances sur génotype
- trio han, yoruba, porto-ricain pour CNV, STR ?
- CNV: 75 en acpa + patients test (quelques CNV et T21)
- Variants structurels :
- 11 (patients lyon + grenoble) et 3 transloc
- performance : attendu = 92% recall transloc, observé 9/11 (les 2 manquantes sont en centro-télomérique)
- variants rendus
Mise a jour clinvar : vérification sur NA12878 avec appel de variants
NB:
- précision = probabilité qu'un variant détecté soit vrai (TP/(TP+FP))
- recall = probabilité qu'un vrai variant soit détecté (TP/(TP+FN))
:PROPERTIES:
:ID: 3442b828-1809-44c4-bbb1-54dcfe553869
:END:
#+title: Tutorial excel variant interprétés
Objectif: mise à jour de toutes les lignes de background orange en utilisant Hygen
- concordance avec diagnostic final
- vérification nomenclature
- zygosity
- hérité
Une fois fini, sélectionner les case (pas la ligne !!!) et mettre en forme "sortie"
Abréviation
DN = de novo
HTZ, HTZC = hétérozygotie
HMiZ = hémizygote
IP1 = hérité du père
IP2 = hérité de la mère
:PROPERTIES:
:ID: 98292470-4cac-4d92-976a-f105192dfd8b
:END:
#+title: SNP-array
2 types de plot
- BAF = "B" allel frequence = allèle alternative (non réference)
https://cnvkit.readthedocs.io/en/stable/baf.html
0 ou 0.5 ou 1 pour autosome (cf figure ci-dessous)
0 0.33 0.66 ou 1 si duplication
[[../img/copy-number.png]]
- log R ration = log2((R_A + R_B)/Rexpected) où Rexpected = interpolé. Abondance relative du SNP et est corrélé a nombre de copies
Isodisomie : 1 seule copie donc homozygote
Hétérodisomie : 1 copie mais du même parent donc hétérozygote mais "même couleurs"
:PROPERTIES:
:ID: fb97e927-2a25-4733-95a2-c4f520c3c711
:END:
#+title: Sélection des variants
#+filetags: pipeline
SNV et petites indels
Combinaison de 3 "briques"
* Transmission
- /de novo/ si tag =de_novo= et < 3 occurences gnomAD
- liée X si sur l'X et homozygote (= hémizygote chez garçon) ou de novo
- biallélique si
- 1 variant de chaque parent ou 1 hérité et 1 de novo sur transcript (tag =biallelic= ou =de_novo_biallelic=)
- *et* au moins un variant clinvar patho ou {impact fort et non intronique}
- hérité parent atteint si hérité (parent 1 ou 2) et ségrège indiviu atteint (=segregating=)
- hérité parent asympto si hérité (parent 1 ou 2) et ne ségrège pas indiviu atteint (=not_segregating=)
* Cible
Attention, exclusives
- panel = hpo ou filière
- ou OMIM
- ou ni panel in OMIM
* Impact
Exclusive
- fort si clinvar patho ou {impact codant ou sur épissage (HIGH/MODERATE)}
- faible : impact LOW MODIFIER et non clinvar patho
:PROPERTIES:
:ID: 92f64d28-a582-484b-8181-ea04c13d850d
:END:
#+title: ROH
#+filetags auragen
Runs of homozygosity
- attention, on renvoie des RoH et LoH (loss of heterozygotie)
- Utile pour voir si consanguinité, disomie uniparentale
- limite basse 2Mb
- résultat sous forme de tableau. Les courbes brutes semblent utiles mais non rendus car on ne sait pas les interpréter ?
:PROPERTIES:
:ID: 8bdb9dba-1270-4c4c-8192-1012e50c2464
:END:
#+title: Rétrotranscription de transcription de gène / GRIPS
GRIPS = Retrocopy insertion polymorphism
définition: insertion d'ADN médiée par ARN messager
Le gène rétrotranscrit est fonctionnellement actif (contraiment au pseudogène)
On le voit avec des reads qui sont sur l'exon d'un autre chromosome avec l'autre extrémité du paired-end sur des zones communes (en blue ci-dessous)
Image:
https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-3-r22
Source : https://genomebiology.biomedcentral.com/articles/10.1186/gb-2013-14-3-r22
* Y penser si
Pendant l'interprétation, on soupçone ça si il y a une poly-Tail (plein d'adénosine) avec des BLAT sur des intervalles énormes
[[http://172.25.219.90:8080/help/mroc/faq/slides/PasAPas_grips.pdf][Exemple]] : ARN messager de KYAT3 (chr1) inséré sur le chormosome 6
- augmentation de la profondeur sur les exons d'un gènes
- soft-clip aux jonction introns/exons
- le dernier exon s'aligne à la foir sur le chrome 1 (+ queue poly-A) et sur le chromosome 6
:PROPERTIES:
:ID: 6698b607-38bb-47de-a729-e2e5ad69b94f
:END:
#+title: Reportmonster
#+filetags: pipeline
Prend les variants en sortie de Curagen et génère les JSON pour les pousser dans CouchDB
Schéma :
https://auragen.atlassian.net/wiki/spaces/DDP/pages/1474756616/Compte-rendu+R+union+2024+04+04+-+pousser+CR+vers+Hygen
:PROPERTIES:
:ID: b71b2e16-0970-4272-ac54-74ca4588487d
:END:
#+title: Rendre un variant
#+filetags: interpretation
Choisir un variant dans aurapport :
- classification ACMG pour assister (non obligatoire)
- classification variant
- "enregistrer et rapporter" -> apparaîtrat en "P" et débloque une "flèche" pour envoyer hygen
- conclusion dossier (?)
:PROPERTIES:
:ID: 29312046-b620-4407-bfc2-9777cea8b66d
:END:
#+title: Rapport
#+filetags: pipeline
Variants
- SNVs, indel < 50bp
- intronique : AG = gain accepteur, AL = loss, DG = gain donneur
- del et dup 50bp-21kb
- gains et partes >= 21kb
- ploïdie
- Régions d'homozygotie
Stats: SNVs et petits indel, CNVs, SV
Contrôle qualité
- pour tous les membres de la famille = QC généraux
- cas index seul : défaut de couverture des positions patho, + gènes panels
[[id:cc54e449-12a7-41d6-832b-33937255be92][Contrôle qualité]]
:PROPERTIES:
:ID: d87c8b18-ea67-4a81-ab7e-20c8fbca0123
:END:
#+title: Questions pour Julien
* invdup MR-2203330
rendu chr8:g.( ?_8,231,549)_10,888,653delins11,100,482_(12,035,836_?)inv
ok pour inversion mais pourquoi dup ? Sur profondeur
* trans MR-2303620
variant SELENON
pourquoi en trans si un /de novo/ et l'autre hérité du père ?
sont assez proches
* Interprétation
- comment interpréter régions LOF gnomAD dans decipher ?
- interprétation intronique sans atteinte épissage
:PROPERTIES:
:ID: 8d35e3f5-c308-4a8c-a8df-807cf6a0ce9f
:END:
#+title: Projets recherche
** KILL [[id:aba69975-9abd-4594-b930-54634e7dac46][Projet mitochondries]]
** Pharmacogénétique
** [[id:7127fbf3-d95e-4f8c-9a2e-8f886eeeaf52][Projet facebook]]
** [[id:b80f3a54-6eb5-4f11-bb37-689bd0746067][Projet pseudogènes]]
** KILL [[id:16c6a9ae-b32b-4e38-bc14-9220343e976a][Projet 5'UTR]] -> Quentin
:PROPERTIES:
:ID: aba69975-9abd-4594-b930-54634e7dac46
:END:
#+title: Projet mitochondries
#+filetags: projets
Contexte :
- proto fonctionnel
- objectif = seulement une liste de hotspot (ne pas augmenter le nombre de variants dans aurapport)
- actuellement les bios regardent quelques positions dans le BAM
Conseil de Virginie: "bloqué" pour le moment, ne pas le prendre
:PROPERTIES:
:ID: 16c6a9ae-b32b-4e38-bc14-9220343e976a
:END:
#+title: Projet 5'UTR
Géré par Quentin avec MORFEE
Context: les variants en 5'UTR qui font un codon stop prématuré et entraînent des open reading frames (uORFs) qui sont en compétition avec les proténies, impact possible sur maladies
:PROPERTIES:
:ID: cef32d57-e0a3-4b76-afd2-326830576462
:END:
#+title: Problèmes connus
#+filetags: auragen
[[id:2228958a-bcde-4256-819d-00237877e5e5][Limite appels de variants]]
[[id:7310f8fa-7518-48f7-bc11-ec14d8e0cbf1][Limites annotation]]
[[id:f4582bec-9f09-4068-8cd0-65b4fb22413d][Limite rendus]]
:PROPERTIES:
:ID: d82ebf38-feca-4409-950f-b208f67fae0d
:END:
#+title: Priorisation
#+filetags: auragen pipeline
- 70% des diag dans les 3 premières ligens
- 84% dans 10 premières lignes
- 2% non rendu
[[id:e82e138d-3ca7-4420-904f-420796975ad5][Limites priorisation]]
:PROPERTIES:
:ID: 064ea7ee-a329-4180-be94-c2abb7970460
:END:
#+title: Plan France Médecine Génomique 2025
Mise en oeuvre : Aviesan (agence publique) à traver le COMOP (comité opérationel) + comité interministériel (pilotage stratégique) sous l'autorité du premier ministre.
3e comité = suivi
:PROPERTIES:
:ID: 30db1b6c-6f95-40db-a363-202b20412d4f
:END:
#+title: Outils pour la détection de variants
- région d'homozygotie [[id:92f64d28-a582-484b-8181-ea04c13d850d][ROH]]
- détection des points de cassure (avec Manta)
- Estimation ploïdie : profondeur sur chromosome/profondeur génome
- non signalées si couveture insuffisante/librairie atypiques (avertissement)
:PROPERTIES:
:ID: 280a19e2-c571-41dd-b339-5fe9723cefbe
:END:
#+title: Notations
#+filetags: auragen
- Librairie atypique = distribution atypique de la profondeur
- index - père - mère
- KC = cancer (tumeur) OG = oncogénétique (sang) MR = maladies rares
- RVI = réunion de validation interne
:PROPERTIES:
:ID: f6ea0248-d5d3-472e-883c-5e9dc14fe57b
:END:
#+title: Mosaïcisme
#+filetags: Auragen
Rapport de synthèse : >= 2 lectures portant variant et VAF 25%
Profondeur moyenne 40x
* Astuces
- pas de bias de brin (autant de reads forward que reverse)
- alignement de qualité: ex MR-2203311: chr10:g.92608457G>T pour artefact (homopolymore, biais de bris, mauvais qualité, présent autres dossiers)
- homopolymère dans la région ?
- qualité des reads supportant la variation MQ=10
- reads soft-clipés (option IGV)
- variant absent d'autres individus (regarder quelques autres dossiers)
- on peut aussi regarder les SNPs : les reads doivent porter le SNP et le variant, sinon possible mosaïcisme (voir FAQ mosaïcisme sur FAQ bio)
** CNV
dans IGV activer "soft clip" et "color by tag" avec MQ10 : permet d'étayer suspcion dup par exemple (on voit les reads coupés)
* Pièges
- les reads soft-clipped ne sont pas utilisé pour le calcul de la VAF qui peut donc être sous-estimée
* Exemples
- [[http://172.25.219.90:8080/ascute-au/igv/igv-mr.html?caseid=MR-2305121&libtype=WGS&libid=LIB00035430_S23%2CCas%20index%2C37.1%3BLIB00035431_S24%2CP%C3%A8re%2C39.5%3BLIB00035432_S1%2CM%C3%A8re%2C37.8&locus=chrX:20177016][5 reads sur 55]] chez la mère (triplo X)
:PROPERTIES:
:ID: 50d77448-a9ad-4588-835d-57483dc7a851
:END:
#+title: Modèle compte-rendu génome
* Classe 4
chrXX(GRCh38):g.YY Gène GGG
ENST00000305921.7:c.CCC
p.(PPP), hétérozygote, Hérité de la ?, Probablement pathogène
$MR
Mise en évidence d’une variation probablement pathogène hétérozygote dans le gène $GENE , héritée de $PARENT hétérozygote.
Cette délétion hétérozygote situé dans le dernier exon entraîne un décalage du cadre de lecture, aboutissant probablement à la formation d’un codon stop prématuré. Cette variation est absente des bases de données populationnelles et n’a pas été retrouvée dans les bases de données de patients ni dans la littérature scientifique. Des variants pertes de fonction (LoF) situés dans les 2 derniers exons de ce gène, dont avant et après le nôtre, sont rapportés comme pathogènes (cf PMID: 37385405). Les variations pathogènes dans le gène $GENE sont impliquées dans une forme $CLINIQUE (OMIM ). Le phénotype peut être très atténué, il est souvent associé des $CLINIQUE2 (PMID: 37183572). Cette variation est considérée comme probablement pathogène (classe 4, critères ACMG : PVS1, PM2, PP4).
La présence de cette variation probablement pathogène hétérozygote peut expliquer le phénotype observé chez le patient. Ce résultat doit être confronté au contexte clinique et aux données familiales dans la branche maternelle. La confirmation de ce résultat sur un second prélèvement indépendant est recommandée.
Une consultation de génétique est nécessaire pour expliquer ce résultat.
* VOUS (exome)
Conclusion :
Le séquençage d'exome en trio avec analyse des CNV pour XXXXXX, né le xxxxx, n'a pas permis d'identifier de variant clairement pathogène pouvant expliquer le phénotype de la patiente, dans les limites de la technique utilisée, des filtres appliqués et des connaissances actuelles. Une nouvelle analyse à distance pourra être discutée, en raison de l'évolution continue des connaissances et/ou en cas d’évolution clinique. Un résultat non-conclusif n'exclut pas la possibilité d'une maladie génétique.
A noter (GRCh38) : présence d'une variation hétérozygote de signification incertaine dans le gène CHD5 héritée de sa mère :
NM_015557.3:c.2043del p.(Thr683ArgfsTer107) (classe III, critères ACMG : PVS1, PM2)
Les variations pathogènes dans le gène CHD5 sont impliquées dans le syndrome de Parenti-Mignot, un trouble du neurodéveloppement de transmission autosomique dominante (OMIM #619873).
Il n'est pas possible, en l'état actuel des connaissances, d'affirmer un lien causal entre la présence de cette variation chez le patient et son phénotype. L'étude de la ségrégation de cette variation dans la famille, une veille bibliographique et la poursuite des investigations pourraient permettre d'affiner l'interprétation et l'implication de cette variation.
Une consultation de génétique est nécessaire pour expliquer ce résultat.
* VOUS cis ou trans
Le séquençage du génome du patient révèle présence de deux variants faux-sens du gène $GENE. On ne peut pas déterminer si ces variants sont situés en trans ou en cis étant donné que seul le patient a été séquencé. Le variant $PROT est rare en population générale
(gnomadV4: 8 hétérozygotes sur 1.6 millions d'allèles), et plutôt conservé du point de vue évolutif. Les prédictions in silico sont discordantes et
plutôt en faveur d'un effet délétère (CADD 33). Ce variant est situé à proximité d'un variant rapporté pathogène ($PROT2). Il est considéré
de signification indéterminée (classe 3 ACMG: PM2 PP3). Le variant PROT3 est également rare en population générale (gnomadV4: 9 hétérozygotes sur 1.6 millions d'allèles), conservé du point de vue évolutif, et prédit délétère in silico. Ce variant est considéré de signification
indéterminée (classe 3 ACMG: PM2 PP3). Les variations bi-alléliques pathogènes de $GENE sont décrites chez des individus atteints de $MALADIE (PMID XXX). En conclusion on ne peut pas affirmer que les 2
variants du gène $GENE présents chez le patient soient à l'origine de sa dystrophie rétinienne, mais cela est possible. Nous recommandons la
réalisation d'un étude de ségrégation familiale (non réalisée par Auragen) afin de déterminer la phase des variants dans un premier temps.
Ce résultat est rendu dans les limites des connaissances actuelles et des techniques utilisées. Il doit être rendu dans le cadre d’un conseil génétique. Le laboratoire AURAGEN ne prend pas en charge la confirmation de ce résultat par une technique alternative.
:PROPERTIES:
:ID: c970b946-efd4-4ae6-b6b1-cd5705e7a6e0
:END:
#+title: Mitochondrie
#+filetags: bio
- Génère ATP (source d'énergie)
- Présent dans noyau
:PROPERTIES:
:ID: c7721d9f-5efe-41d6-8c4a-b636b33a843b
:END:
#+title: Missions internes
Général
- mise à jour [[id:d51e599e-4b82-4061-bf29-43b5ea1ce10c][Excel variants interprétés]]
- tester [[id:0128811c-6cba-4142-a1b9-1d54df0d1b1c][Curagen v2]]
[[id:8d35e3f5-c308-4a8c-a8df-807cf6a0ce9f][Projets recherche]]
Réunions
- mardi 11h: wet/dry (labo)
- jeudi 9h: réunion axe3 (bionfo)
- jeudi 13h/13h38 (labo)
- vendredi 9h : interaxe ?
- vendredi 14h30 (RVI): présenter clinique patients
Documentation
- mise à jour support de formation [[https://auragen.atlassian.net/wiki/spaces/DDP/pages/936214584/Pages+partag+es+avec+le+groupe+MR+-+int+r+t+pour+les+internes][Confluence]]
- commentaires [[https://auragen.atlassian.net/wiki/spaces/DDP/pages/594935852/Slides+de+prise+en+main+de+la+bioinfo+AURAGEN+pr+senter+aux+futurs+biologistes][slides prise en main bioinfo]] : [[id:ecbe176b-21b5-44b8-9945-7c0c627e612a][Amélioraton slides formation]]
- (fin de stage) mise à jour [[https://docs.google.com/presentation/d/1lVfNATQkbaduq9vvvlqMweNOwZcvLHua5IfQoborZws/edit?usp=sharing][Auraport]]
:PROPERTIES:
:ID: 82df331a-bf10-4099-aa1b-24b4dd637a74
:END:
#+title: Mises à jour
#+filetags: pipeline
Annotation
- fréquences : [[id:0b163c10-63c2-44e0-b694-f3749139a3d5][Annotations]]
- vérification de la conformité : clinvar = génome de référence identique, pas de modification du type de variant et des variables (liste des attributs de CLNSIG)
- mesure impact : majeur (nouvau variant patho, perte variant patho), warning (variant perdu), mineur
- rapport (kalilab ??)
- http://genomealerte.univ-grenoble.fr
:PROPERTIES:
:ID: 8aa88129-b937-4320-88ab-da40e1feebaf
:END:
#+title: Matinée habilitation Auragen
#+date: 2024-05-14
#+filetags: habilitation auragen
* Présentation
** Personnes
- Christine Vinciguerra : directrice Auragen
- Julien Fauré : biochimie, post-ana Auragen
- Anne Mc Leer Sandrine Boyault : responsable opérationnelle pré-ana
- Virginie : bioinfo
- Jérémie Mortreaux : futur interprétateur
** Plan france médecine génomique
CAD = collecteur analyseur de données = centre national de calcul
intensif
Prévision 2016: 235K génome /an 20k patients maladies rares 50k cancer réfracteaire
Seqoia vs Auragen, posiiton divisée en 2
** Structure
Géré par consortium
- GCS : clermontferrnand, grenoble, lyon,
saint-etienne + lyon. Administrateru : Anne Kittler, responsable
scientifique : Pr Jean-Yves Blay
- partenaire :
- infrastructure : wet = HCL, calcul = grenobe
Site:
- séquencage : HEH, HCL (lyon))
- bioinfo onco = CLB (lyon),
maladies rares (grenoble)
Structure: responsable
- responable labo : Christine Vinciguerra
Préana : sandrine boyault
- Analytique: Anne Thomas (Virgine Bernard)
post-ana : Julien fauré (Anne mcLeer)
- qualité : anne-christine waymel
** Technique
Objectif: 18k génome/an
- > quasiment rempli
Analyses :
- maladies rares:
génome 30x en trio de préférence
- cancer:
- somatique: génome 60x,
exome 200x, RNAseq
- germinal: génome 30x Janvier 2020: foetopath
Séquenceur: 4 novaseq6000, 1 novaseqX plus Hébergement HDS-RGPD
Accréditation COFRAC (01/05/2024)
ADN extrait : à éviter, on préfère
** Biologiste
Convention pour bio en dehors GCS 144 (22 cancer, 111 maladies rares) 35
praticien en formation (non habilité) avec tuteur 15 cours
d'habilitation
Objectif : formation par auragen en échange de la participation aux
activités
** Processus
20% non conf (membre manquant, documents...) Circuit rapide (juillet
2023) : mineurs en réa avec génome pouvant modifier prise en charge ->
accepté après discussion biologiste
** Réunions
- Mensuel des bio : 2e jeudi du mois (visio). Format libre. Julien Fauré
- bio-info et bio (visio)
- journée annuelle des bio maladies rares : 5 juillet 2024
- coordonnateur pré-indic
Qui peut être tuteur ? Biologiste habilité (et doit pouvoir exercer la
biologie médicale) Maintient habilitation: 1 dossier tous les 6 mois
Pour se ré-habiliter, refaire la formation
** Formation qualité
Hygen = prescription, compte-rendu au prescripteur Attention: bioinfo
somatique = lyon (CLB) Lyon nous transfère les fichiers .BCL
À lire en priorité - référentiel accréditation (15189, REF-02 et
08...) - documentation: manuel qualité, validation, controle qulatié,
non conf, prestatino, réclamations, risques, formation
** Pré-analytique
Tutorials pour prescriptino/envoi sur www.auragen.fr
Transporteur TSP (portail.ts-medical.net/colibri)
Échantillion
- maladie rare/ocon : sang total EDTA ++ (sion ADN extrait/tissu foetal/culot cellulaire)
- cancer
: tissu toral et sang total congeé (tumeur solides (FFPE pour 4
pré-indic)
- sang/moelle/culot cellulaire pour leucémie adulte (ou ADN
extrait)
- ADN/ARN extrait leucémie enfant
** Hygen Création compte
hygen
- via formulaire en ligne (prescription/conseilleur) pour maladie
rare onco
- bio : habilitation auragen + formation
Données cliniques obligatoires =
- Maladies rares:
- indication
symptômes HPO
- généalogie cas index + apparenté + satuts maladies
examens 1ere/2e intention option: gènes supposé, commentaires, symptômes
apparentés
- onco
- Phénotypes tumoreaux extrême isolé: ???
- Histoire
familiale sévère évoquant prédisposition : obligatoire = indication,
génétique déjà fait, nb cancer famille, nb cancer index, généaolige
index+ apparentes, satuts maladise apparentés
- cancer : indication,
attente, génétique déjà fate, histilogie, description prélèvement, %
cellules tumorale
si non conforme
- bloquant : prélèvement conservé congelé jusque levé
(ex: pas de consentement ou de feuille de transfert, tubes endommagé/mal
identifiés, erreur d'étiquettage)
- non bloquant: traité mais doit être
levé avant interprétation (ex: erreur température d'envoi, > 7 jours
avant reception)
** Post-analytique
Dry
- > mise à disposition des dossier
- > répartition
- > analyse
(LBMMS/RVI )
- > résultat
- > CR +/- RCP d'avant
- > CR rendu prescriptieur
Résultat (MR)
- concluant : variant associé à la patho. Peut expliquer
partiellement le phénotype mais à discusser au cas-par-cas
- non
concluant : en l'état des connaissance, on ne peut pas l'impliquer.
supplémentaire
- > réunion d'interprétetation clinico-biologique
- non
conclusif
[[id:4b189666-2c75-4a9b-b95a-00343cb223d0][Aurapport]]
[[id:5d2f248a-52c0-42e8-af45-c6af87b3de1f][Auraweb]]
** Hygen
Émission CR
- status: concluant, non conclusif, non réalisable/non exploitable
- 2 signataires
** Bioinfo
100 nouveaux dossier par semaine
:PROPERTIES:
:ID: e82e138d-3ca7-4420-904f-420796975ad5
:END:
#+title: Limites priorisation
#+filetags: priorisation
2% manqué
- solo-duo
- pénétrance incomplète
- mosaique
Rattrapage avec seqone :
- 75% sur la page d'accueil : duos, pénétrance incomplète,
- 25% sur filtres additionnels :
- "rare coding"
- composites complexes, mosaïque, famille complexe, autre
:PROPERTIES:
:ID: 2228958a-bcde-4256-819d-00237877e5e5
:END:
#+title: Limite appels de variants
#+filetags: auragen appelvariants
* CNV
Ploïdies : voir [[id:ee261ae7-3511-46e0-8c9a-ad4318850104][Appel de variant]]
* STR
STR avec expansion hunter
- seulement en ciblé
- estimation du nombre de répétition (peu précis)
:PROPERTIES:
:ID: 7310f8fa-7518-48f7-bc11-ec14d8e0cbf1
:END:
#+title: Limites annotation
#+filetags: auragen annotation
- Très vieille version VEP (2019)
- nom de gènes non à jour donc lien OMIM peut manquer (due à une vieille version VEP)
:PROPERTIES:
:ID: f4582bec-9f09-4068-8cd0-65b4fb22413d
:END:
#+title: Limite rendus
#+filetags: auragen
Aurapport -> hygen: pushé à la main lundi et jeudi matin. Fin juillet : sera fait automatiquement
[[id:8a2278b0-14de-4b46-8770-5f1f9015032f][Améliorations pipeline]]
:PROPERTIES:
:ID: 3cdf446e-e913-41c9-8dd7-0ec53bfa5104
:END:
#+title: Laboratoire Auragen
* Historique
• Avril 2015 : le Premier Ministre adresse une lettre de mission au Président de l'Alliance
nationale pour les sciences de la vie et de la santé (Aviesan), afin d'examiner les conditions
nécessaires à l’utilisation du séquençage à très haut-débit dans la pratique clinique.
• Juin 2016 : L'Alliance nationale pour les sciences de la vie et de la santé (Aviesan) soumet au
Premier Ministre, le Plan France Médecine Génomique 2025 (PFMG2025).
Ce plan, piloté et soutenu par l'Etat, vise à positionner, en l’espace d’une décennie, la France
dans le peloton de tête des pays engagés dans la médecine génomique.
• Décembre 2016 : publication de l’appel à projet national
• Mars 2017 : clôture de l’appel à projet
• Juillet 2017 : Annonce des deux projets sélectionnés par un jury international et retenus pour
le déploiement initial du plan:
o SeqOIA (Sequencing, Omics, Information Analysis) : plateforme génomique de Paris
Région
o AURAGEN (Auvergne-Rhône-Alpes-Génomique) : plateforme génomique de la
Région Auvergne-Rhône-Alpes
• Janvier 2018 : approbation par le Directeur de l’ARS AuRA de la convention constitutive du
Groupement de Coopération Sanitaire AURAGEN
• Décembre 2018 : dépôt de l’autorisation d’activité de soin à l’ARS AuRA
• Janvier 2019 : dépôt de la déclaration d’ouverture du laboratoire à l’ARS AuRA
• Avril 2019 : Mise en œuvre de l’activité
• Juillet 19 : Visite de conformité de l’ARS
* Financement
Crédi de la DGOS (direction générale de l'offre de soin) indépendaemment les hôpitax
cotation : spécifique
* Organisation adminsitrative
- HCL, CHUGA, CHUSE, CHUCF, CLB, CJP = groupement (GCS) de droite privé
- consortium Auaragen = universié Lyon 1, Jean Monnet, UGA, Clermont Ferrand, Synergie lyon Cancer, École des mines de Saint-Étienne -> enseignement, formation, évaluation
Important : le GCS peut être tenu légalement responsable du séquencage.
* Calcul et stockage
À grenoble, server appartiennet au GCS et mis à disposition.
Hébergement physique : prestataire agréé hébergeur de donnée de santé.
* 2024-07-15
** 15:21 Discussion julien avant présentation CAD
Après bibliographie extensive la semaine dernière.
Schéma
- Données = WGS, phénotype et système de santé (DPI etc)
- 3 niveaux
1. public : /anonymisation/ que peut-on y mettre ? À ce stade, le CAD s'engage...
2. sous authentification : /pseud-anonymisation/ : qu'y mettre (mais moins important)
3. accès complet
Problème: pour >=1 variant et >= 1 phénotype, peut-on garantir l'anonymisation ?
A priori, problème non fait
Modèle: décipher
Idées :
- si on a suffisamment de patient, les variants rares vont être "dilués". On s'attend à 50-60 000 génomes
- on peut avoir une idée du nombre de SNP identifiants (25)
- et du caractère identifiant des phénotypes (voir la notion d'entropie par [cite:@erlich2014])
* 2024-07-11
** 09:01 Axe 3
Présentation Absplice
Contexte : outils récent pour rare "aberrant"
Apport
- anomalies "extrêmes" de splice (outlier) depuis au moins 2 tissus d'u1 individus
- base de données d'annotation de tissué basé sur GTEx (49) avec sites accepteur et donneur
- modèle à partir dADN +/- données RNAseq si disponible
* 2024-07-03
** 13:05 Bioinfodiag Julien Gganeur
Litérature : edgeR, deseq2 = analyse différentielle entre 2 maladies
Ici: on cherche un outlier dans une distribution. Pour un ensemble d'échantillons, stats pour identifier le gèneavec une expression aberrante !
*** Outrider
Input = matrixe nb d'échantillions par gène -> on retient 10-14k gènes dans la cohorte
Sttatsu
Sortie pour chaque échantillons et un gène : fold change
<5 gènes outlier par échantillons !
*** Fraser
regarde l'épissage: anomalies ?
Une seule métrique pour couvrir tous les cas d'épissages alternatif (Jaccard index)
matrice en entéeée
on compte les redas "split" et ceux on split à chaque conjuction. Matrice d'index de Jaccard
Sttas
Sortie taux de fausse découverte et valeur quantitative ΔJaccard
< 10 gènes par échantillons
*** DROP = pipeline intégrant les 2
- input: BAM (RNAseq) et VCF (DNA) + génome référence + annotation par gène
- modules : exrpession aberrante, épissage aberrante, expression monoallélic
Dispo github
https://github.com/gagneurlab/drop
Contrôle qualité :
- vérifier variants dans transcrit sont bien dans le génome
- profondeur de séquencage
- expression des gènes
Sortie: pour un ARN et un gène : AbEx, AbSp, MAE
*** Reco pour annotation des résultat
Il en faut 43
- ARN : vérifie plot (pas de bruit)
- ADN : y a-t-il des variants qui supportent le mécanisme ? Douteux si : pas de avariant rare, pas de génome, mécanisme non clair ou non retrouvé en laboratoire
- clinique: similarité HPO
- ségrégation:
Excl si ségrégation non en faveur, évenement non clear, non retrouvé en fonctionnel, phénotpe très différent
*** Cas clinique
1. del 9Mb. NB: 60% gènes OMIM sont exprimés dans le sang !!
2. deletion 1bp mais manque 2e varant. Expression diminuée
FRASER: nouveel exon créé ? Vérifié IGV
Où est le second variant : 2e variant dans ce nouvel exon
3. Cohorte : étude ARN : parmis les 5 outliers qui collent le plus à la clinique un gène retrouvé (NOP56) avec STR récemment connu
4. Étude de cas : DI + cardio -> rien de conclusif dans ADN
** 14:48 Discussion Maelle couchdb
ok pour héberger sur un VM "proche" couchdb
ok pour faire un minisite web
Sera seulement accessible aux gens avec URL (+ compte ?)
Clément: faire des specs pour Alain
Problème : comment faire des backup ?
* 2024-07-02
** 10:39 Variants -> couchdb
Modification du script de conversion en json pour avoir un champ "docs" qui contient une liste (une line par entrée)
Puis on se déconnecte de l'éthernet pour éviter les problèmes de proxy
cat variants.json | lwp-request -m POST -sS "http://admin:admin@127.0.0.1:5984/variants/_bulk_docs" -c "application/json"
** 13:15 Réunion Charles CHD7
Moins de clinique, détailler remaniement
Répétition jeudui 13h15
** 15:48 Réunion Virginie
Discuter avec julien pour passage éventuel à couchdb. Peut-être arrêter suivi aussi précis ("relax")"?
Il faudrait une interface pour Laurie et les internes. S'inspire de celle de métamonster qu'utilise Laure pour jSON
Pour les dossiers à relire par virginie, restere dans l'excel et metter +@vb dans la colonne "raison"
* 2024-06-28
** 14:32 RVI Montpellier
- [X] 2305204 TP63 déjà discuté mais rendu classe 4 plutôt que 3
- [X] 2400087 del GPC3 classe 4
- [X] 2303264 del ANKRD11 rendu a priori
- [X] 2400218 dup avec NIPBL rendu
- [X] 2303166 dup FGD1 classe 4, sd Aarskgog f
- [ ] 2101694 neg mais à revoir dans seqone
- [ ] 2393246 del 17pter en mosaïque -> vous
- [ ] 2302630 variant ATP6V1B2 : clinique collerait mais ne sera pas rendu
Genematcher NPEPPS -> demande faite par Lucas
* 2024-06-27
** 16:49 Discussion julien CHD7 :chd7:
1. cas clinique
2. > X symptômes, forte suspicion clinique CHARGE (et peu diag différentiel)
3. panel : négatif
4. donc génome qui retrouve un variant complexe
5. hypothèses : inv-inv-del en constit (ou somatique)
6. nanopore prévu (on a de l'ADN, décrire rapidement)
7. Note sur pourquoi non vu en panel
* 2024-06-19
* 2024-06-14
** 09:09 Questions Charles
Ok pour voir interprétation avec chaque bio. M'enverront un mail "à la volée"
** 11:00 Réunion Jérémie + Lucas
Pb
- [X] Commentaire non enregistré parfois ? ->utiliser IP
- envoyer formation SV
Si diag évident, pas besoin de charger seqone
Méthode
- si diag "À discuter", 2e lecture très rapide par Jérémie. À discuter en RCP f
- si douteux "2e lecture" pour secnode relecture complète, sera discuté en staff
- si neg "À interpréter"
*** MR-2201152
- MECP2 à discuter (classe 3)
- question lucas : transloc mais hérité
- DLG3 : VOUS, à discuter
*** DONE MR-2001133 rien
*** DONE MR-2303166
dup chrX:54449198-54460505 Xp11.22 = diag ? FGD1 - sd Aarskgo-scott
SOX11 ne ségrège pas, IGV moche et on a déjà un diag
*** MR-2301994
MLS2 : article + avis à Louis -> VOUS à discuter
*** KILL MR-2301483
* 2024-06-13
** 09:19 Réunion axe 3
*** Quentin
NovaseqX : trop de faux positifs sur les SNV avec VAF en gaussienne à 0.25.
Chimie a priori non changée.
Conséquence probable : +30% variants rendus
TODO:
- il faudrait revoir les filtres sur la qualité du basecalling pour enlever le bruit.
- vérifier si certains filtres sortent plus
*** Alain
Volumétrie : limite sur isilon1 → ménage en cours. Pour les dossiers non rendus, on garde les bam
Normalement transparent avec autolaunch-upgrade : il convertit les CRAM en BAM si nécessaire puis supprime les BAM.
* 2024-06-11
** 10:26 Réunion virginie
- améliorations : ok, mettre les "traités" en bas de page
- droit aurapport demandé
- droits gitlab demandé
- jeudi 13 11h30: réunion bio nationale pour présenter curagen v2 + améliorations aurapport. À faire : diapos pour MAJ aurapport
- reprise réunion bioinfo mensuelle : prochaine 20
- variants manqués :
- finir + regarder réponse ("cas intéressants")
- regarder sur pubmatcher variants sans clinvar ni HPO
- regarder mastermid
- mise à jour phenogenius: travail de Kevin
* 2024-06-06
** 09:07 Formation Validation de méthode
* 2024-06-04
** 10:31 firefox marionnete pour hygen
echec
** 13:36 Rest curl
1. Patient ID dans json
#+begin_src
curl 'https://LOL/Module/Mocas_Parcours/ParcoursIntervenant/TableauDeBord' \
-H 'accept: application/json, text/javascript, */*; q=0.01' \
-H 'accept-language: fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7' \
-H 'content-type: application/x-www-form-urlencoded; charset=UTF-8' \
-H 'cookie: _ga=GA1.2.1548195567.1715695226; _ga_0WP9H4JY82=GS1.2.1715695226.1.1.1715697725.0.0.0; EasilySession=u02er0wbpzuuhahmx0lvcuua; EasilyIdentity=CD5969169B7CB82B40B04ABB7726FE3030A1E16F649DF55604DE127683C5D0C61FAD0C6D8396338F6D210A66C0A6CEB89CAB0AF942F641FC3C08B77C052FFAD5B6AA342A5804EA39F3BFDCC5EDEBE28D4589EC4CD55F50D9623A98AD619CD24E517AB492E654F728194809CB6DC14DE6E6079E31BD2B7965A17484FE309BA5332DAC14C74D301127B1CF3E2B50F0AA083F52D69ED383A74D8A5EE346F8C0A6F0C4235CE3C1F5919CD42A6B6BF4BF162EE873FFDF34E54C00F0FF0B7E3A4B0817AEE52B543AAFCF20F19F2C1581F64E66; easily.AntiForgeryToken=fJD0CA_YBLgTBPCF7lwXXszkfoB-0ca0k-KNpIT51wSdco1H1Jjh93jmZ3NZIdW51nmM1jzfq723QNifx-dkjNFFydvUXMTDpNNZ7UBfVhO_q8wKznM-9QcJlR382xtY4_mymGpv_oayQrjTbCKn3A2' \
-H 'origin: https://LOL' \
-H 'priority: u=1, i' \
-H 'referer: https://LOL/BiologisteGeneticienAURAGEN?X-Correlation-ID=6dd93b9b-9410-47da-8422-124f306bbb7a' \
-H 'sec-ch-ua: "Chromium";v="124", "Google Chrome";v="124", "Not-A.Brand";v="99"' \
-H 'sec-ch-ua-mobile: ?0' \
-H 'sec-ch-ua-platform: "Linux"' \
-H 'sec-fetch-dest: empty' \
-H 'sec-fetch-mode: cors' \
-H 'sec-fetch-site: same-origin' \
-H 'user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36' \
-H 'x-easily-xrsf-token: Bg2-Gp2ET1pLYTgkzSgG9-PBr0JtFDNiGHyEdsRB71FpWNYlS9An8vlT6Xo6ZajuXTH_Jqt4w3TF_XqQjVPgHIXhiDYPrGfyZ5ak1f4IWV0lqxZ6E2TL1l4lsOUj951xTQNgJwBedrRcD-Cfjn8FoA2' \
-H 'x-requested-with: XMLHttpRequest' \
--data-raw 'PageNumber=1&PageSize=50&CodesCR=%5B%22PFAURAG%22%5D&Etat=1&NumeroVenue=MR-2100935&take=50&skip=0&page=1&pageSize=50'
#+end_src
2. Second ID patient + paramètres dans json "parameters": "patientID|NAA1ADAAMgA=;crCode|TQBvAG4AdABwAGUAbABNAFIA"
#+begin_src
curl 'https://LOL/Module/Mocas_Parcours/ParcoursIntervenant/GetConteneurOptionsAsync?codeUF=MontpelMR&idPatient=4502' \
-H 'accept: application/json, text/plain, */*' \
-H 'accept-language: fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7' \
-H 'cookie: XX
-H 'priority: u=1, i' \
-H 'referer: https://LOL/BiologisteGeneticienAURAGEN?X-Correlation-ID=6dd93b9b-9410-47da-8422-124f306bbb7a' \
-H 'sec-ch-ua: "Chromium";v="124", "Google Chrome";v="124", "Not-A.Brand";v="99"' \
-H 'sec-ch-ua-mobile: ?0' \
-H 'sec-ch-ua-platform: "Linux"' \
-H 'sec-fetch-dest: empty' \
-H 'sec-fetch-mode: cors' \
-H 'sec-fetch-site: same-origin' \
-H 'user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36'
#+end_src
3. Jeton domniho dans HTML
penDocumentationSuccess.openModuleDominho('https://hygennlb.auragen.fr/dominho/Fiche/CreateOrOpen?jeton-dominho=c9735cd4-ad81-4fcf-9826-43e712e3db49');
#+begin_src
curl 'https://hygennlb.auragen.fr/Mocas/PrescriptionsMocas/SuiviPrescription/SuiviPrescription.aspx?PortailHost=Easily&GUID=6a43621e-6303-49e2-8caa-c4fa63d75d7b' \
-H 'accept: */*' \
-H 'accept-language: fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7' \
-H 'cache-control: no-cache' \
-H 'content-type: application/x-www-form-urlencoded; charset=UTF-8' \
-H 'cookie: _ga=GA1.2.1548195567.1715695226; _ga_0WP9H4JY82=GS1.2.1715695226.1.1.1715697725.0.0.0; ASP.NET_SessionId=52y0btj5sahv20wb1fnihwv2; openSessionMocas=openSessionMocas' \
-H 'origin: https://hygennlb.auragen.fr' \
-H 'priority: u=1, i' \
-H 'referer: https://hygennlb.auragen.fr/Mocas/PrescriptionsMocas/SuiviPrescription/SuiviPrescription.aspx?PortailHost=Easily&GUID=6a43621e-6303-49e2-8caa-c4fa63d75d7b' \
-H 'sec-ch-ua: "Chromium";v="124", "Google Chrome";v="124", "Not-A.Brand";v="99"' \
-H 'sec-ch-ua-mobile: ?0' \
-H 'sec-ch-ua-platform: "Linux"' \
-H 'sec-fetch-dest: empty' \
-H 'sec-fetch-mode: cors' \
-H 'sec-fetch-site: same-origin' \
-H 'user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36' \
-H 'x-microsoftajax: Delta=true' \
-H 'x-requested-with: XMLHttpRequest' \
--data-raw '
#+end_src
4. Donne path dans json (mais nécesside "jeton-dominho"):
"path": "https://hygennlb.auragen.fr/dominho/Fiche/CreateOrOpen?jeton-dominho=c9735cd4-ad81-4fcf-9826-43e712e3db49&GUID=edf17201-2d01-457a-bb6d-5d8a9efd131b"
curl 'https://LOL/Container/GenerateLegacyAppPath' \
-H 'accept: application/json, text/javascript, */*; q=0.01' \
-H 'accept-language: fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7' \
-H 'content-type: application/x-www-form-urlencoded; charset=UTF-8' \
-H 'cookie: YY
-H 'origin: https://LOL' \
-H 'priority: u=1, i' \
-H 'referer: https://LOL/BiologisteGeneticienAURAGEN?X-Correlation-ID=6dd93b9b-9410-47da-8422-124f306bbb7a' \
-H 'sec-ch-ua: "Chromium";v="124", "Google Chrome";v="124", "Not-A.Brand";v="99"' \
-H 'sec-ch-ua-mobile: ?0' \
-H 'sec-ch-ua-platform: "Linux"' \
-H 'sec-fetch-dest: empty' \
-H 'sec-fetch-mode: cors' \
-H 'sec-fetch-site: same-origin' \
-H 'user-agent: Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36' \
-H 'x-correlation-id: c8f6ee18-6179-49f0-be02-0c1bca2909f9' \
-H 'x-easily-xrsf-token: Bg2-Gp2ET1pLYTgkzSgG9-PBr0JtFDNiGHyEdsRB71FpWNYlS9An8vlT6Xo6ZajuXTH_Jqt4w3TF_XqQjVPgHIXhiDYPrGfyZ5ak1f4IWV0lqxZ6E2TL1l4lsOUj951xTQNgJwBedrRcD-Cfjn8FoA2' \
-H 'x-requested-with: XMLHttpRequest' \
--data-raw 'appCode=8&appURL=https%3A%2F%2Fhygennlb.auragen.fr%2Fdominho%2FFiche%2FCreateOrOpen%3Fjeton-dominho%3DYYY'
** 14:20 dernier essai selenium
échec
* 2024-06-03
** 13:47 Requêtes hygen
1. POST sur /Module/Mocas_Parcours/ParcoursIntervenant/TableauDeBord
payload
#+begin_src
PageSize: 50
CodesCR: ["PFAURAG"]
Etat: 1
NumeroVenue: MR-2304921
take: 50
skip: 0
page: 1
pageSize: 50
#+end_src
headers
#+begin_src
:authority:
hygen.auragen.fr
:method:
POST
:path:
/Module/Mocas_Parcours/ParcoursIntervenant/TableauDeBord
:scheme:
https
Accept:
application/json, text/javascript, */*; q=0.01
Accept-Encoding:
gzip, deflate, br, zstd
Accept-Language:
fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7
Content-Length:
116
Content-Type:
application/x-www-form-urlencoded; charset=UTF-8
Cookie:
_ga=GA1.2.1548195567.1715695226; _ga_0WP9H4JY82=GS1.2.1715695226.1.1.1715697725.0.0.0; EasilySession=yohga5npzerwhvirt3nnvqum; EasilyIdentity=9AE73B264BDABFDA0D57162C127AA248EC00953D42B340F3360AA31239589021E939C52FB946B8DFB5045F99C285EECC3ED2E61F9B9983DE391E00D818C4987CEDE8D31C0EEE27F1787C37057F2DB72389DB51A054342E7E6B5BE7C2ABDE1B1BFF4F34C476F88D7A230F3BBD7A93A0837EF956FFD63C91B4A901DD9DB25BC4ACA0430A582FC5169421E2486089166B6639A6F57E1885CD8B8F4CD69D37CE55AAFA7D1EE99A1C28B21A3E94FC0E466C87FC6C054507E5ED30E3584BADE5D77250E8B6516CFC34812FD05FFC1E71032DEC; mocasSession=d41be185-6a88-423c-997e-bc302f0e1569; easily.AntiForgeryToken=YwQVoL68U4x4l4aw3PCZu6Avzyuea8VUREOXfeMRBIWcWFGLfRlppAZOKzcj-i_o0lwXr3gloLI48B5JElS6y_u8qSZJ5QB1Woip4R_JxTq_9amnhbogCS5ZJzixRksmJlOzjb8cOsJKwEFbdshV0w2
Origin:
https://hygen.auragen.fr
Priority:
u=1, i
Referer:
https://hygen.auragen.fr/BiologisteGeneticienAURAGEN?X-Correlation-ID=4517ec0f-76b6-48fe-81ca-bcdb91ac38fb
Sec-Ch-Ua:
"Chromium";v="124", "Google Chrome";v="124", "Not-A.Brand";v="99"
Sec-Ch-Ua-Mobile:
?0
Sec-Ch-Ua-Platform:
"Linux"
Sec-Fetch-Dest:
empty
Sec-Fetch-Mode:
cors
Sec-Fetch-Site:
same-origin
User-Agent:
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
X-Easily-Xrsf-Token:
amrUXWNngi8OG9J0jm_PeIwKWiFs7xwRr2mmKoLV2FO3ST1XF9dtykyI47s1dJ1QCKo8V5c1DzndjY9qiX4RTl4kxrlYaBjmeU0UJ-sFPV59UFUTEIh-Q3BnFoLZissrIHQd8uRlw95OX5FNr2h-DA2
X-Requested-With:
XMLHttpRequest
#+end_src
response
#+begin_src
{
"Success": true,
"Object": {
"TotalNbItems": 1,
"Items": [
{
"Patient": {
"IdMyHOP": null,
"Ipp": "00023333",
"Nom": "XXX",
"EstAnonymise": false,
"Sexe": 1,
"ShortIdentityWithDateDenaissance": "XXX",
"LongIdentityCompleteWithDateDenaissance": "XXX",
"LongIdentityComplete": "XXX",
"IdentityWithDateDenaissance": ""
},
"Prescription": {
"NumeroVenue": "MR-2304921",
"Commentaire": "$indication"
},
"IdEnsembleVersion": 1,
"Code_UF": "ToulousMR",
"LibelleEtCodeUF": "ToulousMR - CHU Toulouse - domaine maladie rare",
"IdPrescription": 53304,
"DatePrescription": "2023-11-30T11:02:03.9824551",
"IdEtat": 1,
"IdPatient": 17317,
"pres_NbEtapesRDVAPrendre": 0,
"pres_NbEtapesRealisee": 8,
"pres_NbEtapesAFaire": 0,
"pres_NbEtapesTotal": 9,
"DateEvtDecl": "2023-11-30T11:02:02.6018158",
"NomResponsable": "YYY",
"MostToDo_Libelle": null,
"MostToDo_DateDebut": null,
"MostToDo_DateFin": null,
"MostToDo_DateRDV": null,
"MostToDo_IdEtapePrescrite": null,
"Next_Libelle": null,
"Next_DateDebut": null,
"Next_DateFin": null,
"Next_DateRDV": null,
"Next_IdEtapePrescrite": null,
"Titre": "AURAGEN filière maladie rare",
"NumVersion": 18,
"DateModification": "2023-12-05T00:38:02.9733457",
"HasLiaisons": false,
"CanEditPrescriptions": false,
"HasEtapeAvecCodeCrCommeActeur": true,
"IdResponsable": 304,
"IdPrescripteur": 304,
"TitreSuiviPrescription": "NOM - FILERE"
}
]
}
}
#+end_src
2. Jeton 1 = ?
3. Jeton2 = post sur
https://hygen.auragen.fr/Container/GenerateLegacyAppPath
payland utili
2.
lien de téléchargement obtenu par GET sur
https://hygennlb.auragen.fr/dominho/Fiche/CreateOrOpen?jeton-dominho=b7f536f5-ff91-46ce-a4ac-29047e054b37&GUID=c8d34abe-5d5a-4085-86de-0221efbec8e0&X-Correlation-ID=f35cb270-4b3c-4baa-ab77-9b0000da3e3
dans le HTML on a le lien vers le téléchargement mais sans le fileID
dans DeleteMetadoneChildFile
1. Téléchargement avec /Dominho/Fiche/DownloadFile
lien de téléchargement obtenu par GET sur
avec payload
ukey: 8ZnJYk6CR3I/y/RT/zHw7oLOBDx8uvv0Gv4Vz5tGy6efqaK9NdA=
file_id: b7e08444e677430cb62c4468c6063cb6
headers
#+begin_src
:authority:
hygennlb.auragen.fr
:method:
GET
:path:
/Dominho/Fiche/DownloadFile?ukey=8ZnJYk6CR3I%2Fy%2FRT%2FzHw7oLOBDx8uvv0Gv4Vz5tGy6efqaK9NdA%3D&file_id=b7e08444e677430cb62c4468c6063cb6
:scheme:
https
Accept:
text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.7
Accept-Encoding:
gzip, deflate, br, zstd
Accept-Language:
fr-FR,fr;q=0.9,en-US;q=0.8,en;q=0.7
Cookie:
_ga=GA1.2.1548195567.1715695226; _ga_0WP9H4JY82=GS1.2.1715695226.1.1.1715697725.0.0.0; ASP.NET_SessionId=43zwtbzcb0khl3czxwshdo2l; openSessionMocas=openSessionMocas
Priority:
u=0, i
Referer:
https://hygennlb.auragen.fr/dominho/Fiche/CreateOrOpen?jeton-dominho=04cb077a-ea5f-4381-94da-65ffb1ef6dbe&GUID=84b3eeed-f4c7-4e19-9734-ef1568ead653&X-Correlation-ID=a8d1e9b1-71f5-4edc-b6de-668641429ea5
Sec-Ch-Ua:
"Chromium";v="124", "Google Chrome";v="124", "Not-A.Brand";v="99"
Sec-Ch-Ua-Mobile:
?0
Sec-Ch-Ua-Platform:
"Linux"
Sec-Fetch-Dest:
iframe
Sec-Fetch-Mode:
navigate
Sec-Fetch-Site:
same-origin
Sec-Fetch-User:
?1
Upgrade-Insecure-Requests:
1
User-Agent:
Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
#+end_src
** 15:20 Essai selenium/seleniumbase/hack
Impossible de passer le proxy, "erreur 502" avec toutes les possibilités (2h de tests)
Seul moyen = eduroam. Mais il faudrait se connecter à un onglet ouver
* 2024-05-30
** 13:57 réunion labo
Annule et remplace = n'écrase pas les anciens compte-rendus
Réanalyse = nouvelle étape dans hygen (même numéro de dossier car correspond à une famille)
* 2024-05-29
** 14:49 Réunion Julien + Jérémie
Tutorial pour interpréter SV et CNV voir [[id:c2c6328b-1292-454d-81b4-e97ba85b4572][Interprétation]]
Groupe slack
Interpréter 3 génome et les rendre
Objectif : Jérémie ne fait que ceux de montpellier et seulement les nouveaux (7.1).
Participation au RVI Montpellier : Jérémiée +/- moi
** 15:49 Réunion Julien
- Tutorial seqone : voir avec Jérémy ou réunion mensuelle sur les loupés. Mais le mieux est d'utiliser les filtres pré-définis
- Accès cluster : CHU pour le moment, il faudra monter une demande solide en justifiant le besoin
- Nouveaux diag récupéré avec curagenv2 + score HEAD: ok pour communiquer avec un petit comité de biologiste (grenoble + lyon)
* 2024-05-28
** 10:41 Réunion
13 juin : curagen v2
** 11:56 Réunion Virginie
Questions (cf confluence)
- on peut avoir plusieures lignes pour un variant -> faire FAQ
attention: pour clinvar, on utilise la position donc on peut flagger sur le mauvais gènes...
- on rend encore microARN mais ne le sera pas sur curagenev2
Améliorations
- MONARCH : ok, sera fait
- inheritance: envoyer un fichier omim avec colonne
Point avec Julien: demander
- question sur CUX2 MR-2200237: non présent IGV
- question sur IKBG MR-2400054 : mauvaise qualité read mais OK blat ?
- à se greffer sur la formation avec jérémie
- si ok pour regarder les nouveaux diag potentiels avec HEAD
- accès cluster (import pour projet pseudogene)
Projets
- [[id:b80f3a54-6eb5-4f11-bb37-689bd0746067][Projet pseudogènes]]
- nouveau diag : contexte = rattraper diag sur anciennes version de curagen en utlisant un score maison nommé HEAD
- score:
- il se base sur CADD, segreg, clinvar, HPO
- patho si > 47
- objectif: regarder variants intéressants puis mail bio si possible diag
- détails non communiqué au bio ("classification ACMG")
* 2024-05-27
** 09:59 Discussion virigine
- Retour FAQ bio -> regarder vidéos Benjamin + retour + MAJ future
- Regarder à l'aveugle les variants manqué par Curagen v1
- Présentation commune avec les bios des "trous" de curagen ?
** 11:02 Étude dossiers manqués
http://172.25.219.90:8080/aurapport/app/#/main/snv?case=MR-2200237
dans aurapport : le variant chr12:g.111347618_111347619insAC n'est pas dans IGV ?
** 15:13 Réunion virginie demain
- Accès auraweb ok mais pas aurapport
- variants IKBKG: mail bio pour discuter décision ? Guilaine Boursier
Avec BLAT on est assez confiant. Sur un read avec deletion
149 1 150 150 100.0% chrX - 154643828 154643979 152
149 1 150 150 100.0% chrX + 154560459 154560610 152
28 3 47 150 83.4% chrX - 130249297 130249341 45
23 110 133 150 100.0% chr9 + 134170923 134170948 26
22 106 135 150 69.6% chr6_GL000251v2_alt + 1408511 1408533 23 What is chrom_alt?
21 39 61 150 95.7% chr8 + 66429131 66429153 23
20 15 34 150 100.0% chr10 + 72875848 72875867 20
18 31 48 150 100.0% chr16 + 47049679 47049696 18
* 2024-05-24
** 09:52 RVI IOP
- 2304725 : exploration hémostase pour PLG ? (far-fetched...)
- 2101776 : MCM8 ok
- 2305313 : neg ?
a noter pour virginie : variant BTNL3 hmz chez index + mère mais il y a une délétion en trans donc variant hémizygote
ERCC6 : non une seule publi non reproduite(seqone)
HSPG2 clinique non en faveur
- 2304151 : avis expert hypo hypo demandé, a priori neg
** 10:17 Erreur sur nom de gène
Dû à la vieille version de VEP mais difficile à metter à jour [[id:7310f8fa-7518-48f7-bc11-ec14d8e0cbf1][Limites annotation]]
** 10:40 Automatisation Hygen
1. POST https://hygen.auragen.fr/Module/Mocas_Parcours/ParcoursIntervenant/TableauDeBord
- cookie
- header Origin: https://hygen.auragen.fr et Referer: https://hygen.auragen.fr/BiologisteGeneticienAURAGEN?X-Correlation-ID=6dd93b9b-9410-47da-8422-124f306bbb7a
- payload PageNumber=1&PageSize=50&CodesCR=%5B%22PFAURAG%22%5D&Etat=1&NumeroVenue=MR-2300926&take=50&skip=0&page=1&pageSize=50
- réponse
- JSON
{
#+begin_src json
"Success": true,
"Object": {
"TotalNbItems": 1,
"Items": [
{
"Patient": {...},
"IdEnsembleVersion": 1,
"Code_UF": "GrenoblMR",
"LibelleEtCodeUF": "GrenoblMR - CHU Grenoble - domaine maladie rare",
"IdPrescription": 39310,
"DatePrescription": "2023-03-03T08:05:12.3639826",
"IdEtat": 1,
"IdPatient": 12278,
"pres_NbEtapesRDVAPrendre": 0,
"pres_NbEtapesRealisee": 9,
"pres_NbEtapesAFaire": 0,
"pres_NbEtapesTotal": 13,
"DateEvtDecl": "2023-03-03T08:05:11.8649522",
"NomResponsable": "DEVILLARD, Françoise",
"MostToDo_Libelle": null,
"MostToDo_DateDebut": null,
"MostToDo_DateFin": null,
"MostToDo_DateRDV": null,
"MostToDo_IdEtapePrescrite": null,
"Next_Libelle": "Extraction",
"Next_DateDebut": "2023-03-08T00:00:00",
"Next_DateFin": "2029-04-27T00:00:00",
"Next_DateRDV": null,
"Next_IdEtapePrescrite": 193575,
"Titre": "AURAGEN filière maladie rare",
"NumVersion": 18,
"DateModification": "2023-12-05T00:06:10.6543087",
"HasLiaisons": false,
"CanEditPrescriptions": false,
"HasEtapeAvecCodeCrCommeActeur": true,
"IdResponsable": 396,
"IdPrescripteur": 396,
"TitreSuiviPrescription": "VOLLAND CLIN Louca - AURAGEN filière maladie rare"
}
]
}
}
#+end_src
- HTML
#+begin_src html
<span ng-hide="false" class="tdb-hoverable ng-binding" title="PATIENT DDN - IPP" ng-mouseover="toolTipForPatientPrescription(dataItem.Patient)" ng-click="openConteneur(dataItem.IdPatient, dataItem.Code_UF)">
PATIENT DDN
</span>
#+end_src
** 17:03 Réunion biologistes de Lyon
Participant: Louis Januel (Lyon), Nicolas Chatron (Lyon), Céline Richard (St-Étienne ?), Francis Ramond
1. Réunion bimensuelle pour discuter d'1-2 dossier complexe, 30min max. Présenté par un interprétateur «avancé". Public visé : plutôt ceux qui interprétent beaucoup mais invitation à tout le monde.
Exemple du dossier 2400847 avec pic à 500x -> parvovirus probable ! (noté dans [[id:116b858b-5dd5-4b77-bd67-55fc3b7b76ea][Cas intéressants]] ).
Demandé à assister à la prochaine
2. CNV en mosaïque : tester 5 dossiers
3. Amélioration interface :
- Maëlle travaille sur nouvelle version pour avoir une page perso par biologiste
** 17:35 Discussion impromptue avec Julien
- Clinvar : la législation nous empêche d'y soumettre les variants. In fine, le CAD devrait servir d'entrepôt de données.
- Interprétation : voir avec Laurie pour bloquer un temps
Voir avec Wiame pour interprétation, sinon avec Julien (pas de mail !)
- Projet:
- pseudo-gène démarré
- doit envoyer biblio projet facebook par mail
- point à faire
* 2024-05-23
** 09:50 Bibliographie pseudogene
[[id:2c8cdbf2-39b5-429b-8dc4-0816129b808e][Bibliographie pseudogene]]
** 11:04 Notes tutorial excel variants interprétété
Mises dans [[id:3442b828-1809-44c4-bbb1-54dcfe553869][Tutorial excel variant interprétés]]
** 13:59 Essai restauration excel "cassé"
Tri sur "variant(s) diag" casse les 6 000 variants...
Impossible de revenir en arrière
Version récupérée par Julien
* 2024-05-21
** 10:38 Réunion Virginie
- Discussion des projets
- [[id:7127fbf3-d95e-4f8c-9a2e-8f886eeeaf52][Projet facebook]]: voir avec julien mais je pars sur biblio seule
- [[id:aba69975-9abd-4594-b930-54634e7dac46][Projet mitochondries]]
- [[id:b80f3a54-6eb5-4f11-bb37-689bd0746067][Projet pseudogènes]] -> retenu
- [[id:d51e599e-4b82-4061-bf29-43b5ea1ce10c][Variants interprétés]]
- attente accès hygen
- faire page confluence
- Curagen v2
* 2024-05-17
** 09:00 Réunion interaxe
- Validation VDM: excel non propre, réunion avec Carole
- travaux 2 semaines, installation séquenceur après. Mise en prod des 2 seqX : juillet (très optimiste)
** 14:00 Génomes RVI
- MR-2302109 : 0
- MR-2304430 : HUWE1 : del en phase (difficile à interpréter, non rendu car on a un diag) et un faux sens (avec gain site accepteur) rendu classe 4. On retrouve le gain 9p (non rendu sur fréquence)
- MR-2401065 : DYRK1A classe 5
- MR-2401068 : SDHC en données incidentes. USP7 si père asympto, non rendu (2 non vus...)
- MR-2401107 : CDH3 classe 4, remaniement complexe : plusieurs écritures possible. En gros, lequel prend le pas entre le variant d'épissage et codon stop, non vu, à revoir !
- MR-2401204 : 0
** 15:00 Question aurapport
- CNV: chrX en gras ? ex 2401068
- clinvar probablement patho non annoté : problème de mise à jour ?
https://www.ncbi.nlm.nih.gov/clinvar/variation/3049147/ -> classe 2 donc non précisé
* 2024-05-16
** 09:00 Réunion interaxes
- Elise : travail sur contamination FFPE avec Alain -> regarde SNP homozygotes : si htz, probablement contamination
- Jean-François (DSI) : 70% stockage utilisé, centos non supporté fin juin
- nouveau séquenceur : fin juin. DRAGEN toujours lancé
- validation novaseq X à faire fin du mois de mai (arrêt des séquenceurs pour travaux)
- Visite CADD 27 juin
** 11:00 Réunion labo
** Quentin
- Écart tube EDTA périmé : étude d'impact
- comparaison échantillon périmé sur non périmé avec hap.py
- NB: si on reséquence un patient, on crée un nouveau numéro mais cela peut être le même ADN extrait (il faut vérifier date extraction et réception) -> à vérifier par christine
- NB: il y a "bruit de fond" sur un même patient mais séquencé 2 fois (avec 2 extractions d'ADN) -> comparaison non périmé/non périmé
- petit effet sur indel mais test statistique à faire -> /probablement pas d'impact/
- Ecart délai d'extraction : étude d'impact
- comparaison T0 T+7j t+14
- ne semble pas impact SNV pour appel variation, impact sur indel ? -> /probablement pas d'impact/
- Question Christine: retrouve-t-on les variants rendus ?
** 11:00 jSlides formation bionfo
** 6.3
- 10 : OMIM: morbid ?
- 10 : panele de gènes HPO = classement et non booléan
** 14:00 Sauvegarde notes : confluence possible a priori
token atlassian
ATATT3xFfGF0Uqo6O7AoYVJP0cyc6yKqaCjeKpDlHW8rAiOJtczR4lbx8kETlGLIR7ZVoNgZDP8KarOmOL8CdIXixao89g20QbKfTkzl8uyIzFu1VxGiqg-NzpAOGF_ZHMK7VjiJs6laRGazxnoci0Bsn-FQVgwPl9FVsQgEWmFGtw1poaeTPNY=107925FC
** 15:00 Questions
- à quoi sert vraiment le tag de transcrit biallelique ? identifier les possible hétérozygotie composite ?
- idem pour les worst impact sur le transcrit
** 11:00 Réunion Flashi qualité
Objectif : norme 2022 septembre
* 2024-05-15
** 09:00 [[Formation Kalilab]]
** 11:00 Formation
- CNV: dossiers à regarder : tous retrouvé mais
- [ ] [[http://172.25.219.90:8080/DATA/MR-2000903/manual/report/MR-2000903.pdf][MR-2000903]] : petite délétion prenant le début de l'exon 6 [[http://172.25.219.90:8080/ascute-au/igv/igv-mr.html?caseid=MR-2000903&libtype=WGS&libid=LIB00003583_S18,Cas%20index;LIB00003581_S16,M%C3%A8re;LIB00003582_S17,P%C3%A8re&locus=chr1:235470919][IGV]] (vérifié sur Hygen) -> revoir pourquoi rendu
- [ ] [[http://172.25.219.90:8080/DATA/MR-2000957/manual/report/MR-2000957.pdf][2000957]] vérifier dans hygen + mise à jour diapos
* 2024-05-14
** 09:00 Réunion flash
pathMR = partie automatique du pipeline [[Vue d'ensemble pipeline]]
* 2024-05-13
** 15:00 Notes
Confluence à mettre à jour
https://auragen.atlassian.net/wiki/spaces/DDP/pages/936214584/Pages+partag+es+avec+le+groupe+MR+-+int+r+t+pour+les+internes
Formation
- CNV: dossiers à regarder
- [X] [[http://172.25.219.90:8080/DATA/MR-2000903/manual/report/MR-2000903.pdf][MR-2000903]] : petite délétion prenant le début de l'exon 6 [[http://172.25.219.90:8080/ascute-au/igv/igv-mr.html?caseid=MR-2000903&libtype=WGS&libid=LIB00003583_S18,Cas%20index;LIB00003581_S16,M%C3%A8re;LIB00003582_S17,P%C3%A8re&locus=chr1:235470919][IGV]] (vérifié sur Hygen) -> revoir pourquoi rendu
- [ ] [[http://172.25.219.90:8080/DATA/MR-2000957/manual/report/MR-2000957.pdf][2000957]] vu depuis hygen Vérifier que c'est bien [[http://172.25.219.90:8080/ascute-au/igv/igv-mr-cnv.html?caseid=MR-2000903&libtype=WGS&libid=LIB00003583_S18,Cas%20index;LIB00003581_S16,M%C3%A8re;LIB00003582_S17,P%C3%A8re&locus=chr2][IGV]]
- [X] [[http://172.25.219.90:8080/DATA/MR-2000321/manual/report/MR-2000321.pdf][MR-2000321]] inversion 7q :[[http://172.25.219.90:8080/ascute-au/igv/igv-mr.html?bnd=1&caseid=MR-2000321&libtype=WGS&libid=LIB00006671_S12,Cas%20index;LIB00006672_S13,M%C3%A8re;LIB00006673_S14,P%C3%A8re&locus=chr7:118007691][IGV]] Retrouvé avec les points de cassure
- [X] [MR-2100324] t(2,21) [[http://172.25.219.90:8080/ascute-au/igv/igv-mr.html?bnd=1&caseid=MR-2100324&libtype=WGS&libid=LIB00004807_S24,Cas%20index;LIB00004808_S1,P%C3%A8re;LIB00004809_S2,M%C3%A8re&locus=chr21:25322711][chr21]] et [[http://172.25.219.90:8080/ascute-au/igv/igv-mr.html?bnd=1&caseid=MR-2100324&libtype=WGS&libid=LIB00004807_S24,Cas%20index;LIB00004808_S1,P%C3%A8re;LIB00004809_S2,M%C3%A8re&locus=chr2:105526798][chr2]]. Retrouvé avec les points de cassures
* 2024-05-07
** 09:00 Formation auragen
- Impossible d'accéder aux données CNV des dossiers tests
- cas de virginie : cf slides delhomo
Jumeaux monozygotes : quelle est le taux de similarité ?
- Revue 2010 https://sci-hub.ru/https://onlinelibrary.wiley.com/doi/epdf/10.1002/ajmg.b.31091 :
- phénotypes discordants rapportés
- plusieurs cas de discordances génétique sur chromosomique CNVs, rare cas sur SNVs, disomie uniparentale, répétition triplet, mitochondrie, longeur télomère
- mécanisme possibles : mutation post-zygotique (mosaïcisme somatique) ,
épigénétique, inactivation X
Notes
- [[Génétique biologique#Pseudogène]]
- [[Génétique biologique#Mitochondrial]]
** 14:00 Réunion virgine
- samplot/igv : visible depuis PDF pour vieux dossier (lien dans PDf).
Remplacer IP par https://portail.auragen.fr/ si besoin
- mise à jour slides de formation : commentaire dans le document ou sur
confluence selon le cas. Tagger virginie si julien propriétaire
*Mission : mettre à jour excel dans les cases oranges seul*
- objectif : s'entraîner sur les cas patho et compléter ce qui est sur
hygen mais absent d'aurapport (si retrouvé seqone)
- mise à jour par virginie avec script puis collé à la main
- CR positif = variant rendu qq soit classif
- compléter zygosité, héritabilité Dossiers intéressants à regarder
- low mappabilité dans excel
- GBA 2202491 Doc : liste sur conflunce "intérêt pour les internes"
Regarder stats par filier
- avancée du mois = /diag patho/
:PROPERTIES:
:ID: 917f60d8-2239-4429-a88d-74a36907035a
:END:
* 2024-05-06
** 14:00
[[id:280a19e2-c571-41dd-b339-5fe9723cefbe][Notations]]
[[Génétique médicale]] [[Génétique biologique]]
** 09:00 Réunion flash
- liste de projets Alexis
- mitochondrie
- pseudogene
- pharmacogénétique
- peut-on échanger des données brutes sans pouvoir retrouver le patient ?
- (5'UTR)
- actuellement le diag dans auraweb doit être validé par le bio, puis par un scrit ici avant d'arriver sur hygen. Objectif: automatique d'ici fin jui
- changement de kit : constit : trueqe -> tagmentation. Onco = nexera
- métaslism : données labo (kit, étapes...). Pas mal de problèmes, géré par quentin : incompletes voire fausse avec nécessite de corriger sur le cluster.
- dossiers avec erreur de kit, seulement vue à la réinterprétation (!)
- nouveau séquenceur : novaseq 6000 -> novaseq X. À valider sur données GIAB
- urgence : rapide >> urgent >> autre (sic)
- clément et quentin doivent valider le run avant de lancer l'appel de variants
Avancement doc:
- 5.6 : reste exercices
:PROPERTIES:
:ID: 755b1fa7-4ada-4ab3-80a6-906f6a2aa504
:END:
* 204-05-03
** 11:00 Doc auragène
- [[Mises à jour]]
- [[id:247f9296-5b37-4060-ab66-6835b9b201f9][Cohorte]]
- [[id:587dc7c4-1dd5-4068-8d24-6e3825f01e66][Validation]]
- [[id:cc54e449-12a7-41d6-832b-33937255be92][Contrôle qualité]]
- [[Problèmes connus]]
- [[ROH]]
- [[Amélioration formation auraweb]]
- [[Cas intéressants]]
Réunion Virginie
- [x] Badge
- [ ] Accès webmail + proxy: pas avant semaine prochaine, utilise identifiant virginie.bernard et bernard2020
- [x] accès slack: a priori non
- [ ] Ajout mail liste de diffusion auragen (?): à voir si mail CHU ok
- [ ] Kalilab ?
- [x] Pont ? a priorio ok
- [[Missions interne]]
* 2024-05-02
** 10:00 Auragen
- [[Amélioration formation auraweb]] ok jusque 2.4
- [[id:587dc7c4-1dd5-4068-8d24-6e3825f01e66][Validation]]
- [[Appel de variants]]
- [[id:67a7ed39-62f6-4853-beeb-a4f1449b394e][Identito-vigilance]]
- [[id:cc54e449-12a7-41d6-832b-33937255be92][Contrôle qualité]]
- [[ROH]]
- ROH = runs of homozygosity. Plusieurs SNP homozygotes -> utilisé pour
consanguinité ? facteurs de risque pour certains maladies
- Listes de gènes d'intrérêt : pour prioriser
#+title: Monday 22 July 2024 17:05
#+date: [2024-07-22 Mon 17:05]
#+filetags: :journal:
#+identifier: 20240722T170553
* Réunion Julien
:PROPERTIES:
:CUSTOM_ID: h:bb309511-7f5f-4d27-a376-62471c1ccfa9
:END:
Voir notes papier. Pour génotype seul
1. combiner BNMDR avec orphadata pour la prévalence
2. fusionner les entrées BNMDR < 10 patients (comment ?)
3. essayer de trouver un modèle stats pour prédire la probabilité d’un variant (à creuser mais les publis sont sur des gènes). Julien n’a pas retrouvé une publi mais il y avait une heatmap
4. En dernier recours, argument bioéthique (personne dédié au CAD) pour justifier de la balance bénéfice-risque
Phénotype seul: plus facile, on remote la nomenclature HPO jusqu’à avoir > 10 patients
Génotype + phénotype : attente de résolution du problème phénotype
** Pseudogene
Biblio inutile car on a déjà la liste des pseudogènes. tous les articles
Il faut pouvoir forcement l’alignement pour cette liste.
Utiliser chameleolyser avec publi science 2024 par Staevart
** Génomes péruvien
Biblio
- travail M1: doit retrouver info
- a envoyé quelques articles, à lire
#+title: Monday 22 July 2024 09:56
#+date: [2024-07-22 Mon 09:56]
#+filetags: :journal:
#+identifier: 20240722T095640
* Biblio facebook
[cite:@xie2024statistical] revue de différents outils qui font un "enrichissement" sur gènes de novo.
On essaie de trouver ceux qui estiment le nombre de variants par gène
[cite:@samocha2014framework]
#+title: Friday 19 July 2024 09:38
#+date: [2024-07-19 Fri 09:38]
#+filetags: :journal:
#+identifier: 20240719T093836
* Biblio
** Orphanet = données biblio
:PROPERTIES:
:CUSTOM_ID: h:25554172-e571-42d3-86d5-2a50aae2d4e2
:END:
- [cite:@orphadata2024epidemio] données orphanet : épidémié par maladies avec une liste d'article et la prévalence/incidence estimée pour chaque article. Format XML. Accès libre
- [cite:@orphanet2023prevalence] idem mais PDF et moins à jour ?
- orphadata: lien gène-maladie https://www.orphadata.com/genes/
- [cite:@orphadata2024phenotype] donne fréquence phénotype dans un contexte clinique selon 5 groupes. Critère diagnostic également
- [cite:@orphadata2024natural] zygotie, age de début
- [cite:@hoomm2024ordo] : lien entre phénotype et clinique avec la fréquence. Idem que fréquence phénotypique au début ??
Méthodo [cite:@nguengang2019estimating]
** BNDMR
https://www.bndmr.fr/publications/nombre-de-cas-par-mr/
** Autre
- [cite:@smith2022estimating] mettre fig 3. Calcul non clair pour le nombre de maladies rares mais disent 12000! SNV si on considère la moitié des gènes
- [cite:@haendel2019how] à partir de monarch > 10k pour le nombre de maladies rares
- [cite:@macarthur2012systematic] 185 genomes ~ 1 200 variants LOF filtrés. Estimation génome en moyenne 97 variant LOF dont 18 homozygotes
#+title: Thursday 18 July 2024 15:31
#+date: [2024-07-18 Thu 15:31]
#+filetags: :journal:facebook
#+identifier: 20240718T153145
* Brainstorming
- Prévalence
- estimée par des stats (biblio à faire)
- total en médecine générale 1.6% des visites [cite:@Jo_2019]
- [cite:@ferreira2019burden] article un peu vieux mais 39% des maladies génétique ont une cause et donne des stats par paye 1/2500 pour la def avec 9 603
- faut-il utiliser clinvar ou decipher ? [fn:1]
- si trop rare, on a 2 modèles pour maladies récessives[cite:@bainbridge2020determining; @schrodi2015prevalence]
- Quid phenome central ?https://www.phenomecentral.org/ -> seulement phénotype. Faut-il faire des stats ? Ou avec genematcher ?
- Et le phénotype ?
- Et l'association variant-phénotype ?
* Footnotes
[fn:1] decipher : demande par mail, clinvar https://simple-clinvar.broadinstitute.org/
#+title: Tuesday 16 July 2024 17:25
#+date: [2024-07-16 mar. 17:25]
#+filetags: :journal:
#+identifier: 20240716T172506
Notes sur réunion <2024-07-15 lun.>:
2 points différents
1. ré-identification = retrouver nom, prénom etc -> c'est la biblio. À mettre à jour (not. généalogie)
2. perte d'anonoymisation = partie spécifique aux maladies rares. Pas de biblio !
- sur les variants seuls: Julien propose de faire un calcul de probabilité avec un nombre d'évènement un peu fin:
- population concernée = nombre de naissances avec maladie rare (voir chiffre en ligne)
- puis affiner selon le type de maladies et de variant : F508del n'a pas la même fréquence qu'un variant tronquant SEDT5 (?)
- sur le phénotype seul : on peut probablement réutiliser la bibliographie avec l'entropie [cite:@erlich2014]
- qui du lien phénotype-génotype ? l'idéal serait de proposer un seuil : n_variant + n_phenotype < seuil. Comment le déterminer ?
Autres remarques
- si on a plusieurs patient avec phénotype/génotype ou les 2, on ne peut pas les identifier. Donc si la cohorte est suffisamment grosse, c'est bon
- pour les maladies tellement rares qu'on n'a pas de fréquence : a-t-on le seul individu ? Plus difficile à justifier mais voir calcul ci-dessus
- en dernier recours, si on arrive à identifier un individu, "pas si grave" car on n'en aura *pas* identifié une centaine par exemple (balance bénéfice risque)
NB:
- 30% d'identification n'est pas grand-chose pour Philippe-Jean ("anonyme")
- soit on fait un calcul un peu "nul", soit on fait un article propre intéressant
:PROPERTIES:
:ID: c2c6328b-1292-454d-81b4-e97ba85b4572
:END:
#+title: Interprétation
#+filetags: auragen interprétation
* Compterendu
[[id:50d77448-a9ad-4588-835d-57483dc7a851][Modèle compte-rendu génome]]
* Classification
o Concluant : variants patho collant avec clinique
o Non conclusif : pas de variant patho expliquant la clinique
o Non-concluant : besoin de faire des examens complémentaires, VOUS, variants hmz retrouvé htz
* Méthodes
Principe (pour apprnedre): pourquoi cette ligne est-elle présentée ?
** SV
1. récurrence ++.
- si fréquent, regarder si élément mobile (track /simple repeat/ dans ucsc +/- BLAT poru voir où s'aline. NB: élément mobile = facteur de risque de SV)
2. contenu en gène
Qualité : assez de reads et équilibrées, ne pas utiliser la VAF
NB:
- "identique" dans la cohorte mais fenêtre 1kb..
- samplot++ pour visualisation
- héritage non présenté
*** Notes
- aide interprétation : IGV+++
- couleur du read = chromosome où est le read partenaire (code couleur fixé, ex: jaune = chr4)
-> "view mate in split screen"
- attention si intrachromosomique, décocher "view as pairs"
- ne pas confondre avec les reads bleus (insert size plus petite qu'attendue = insertion) ou rouge (insertion size plus grande qu'attendue = délétion)
- bien regarder diapos 5.6 pour exemples
- regarder autres membres
- attention au bruit -> il faut des reads soft-clip propres aux 2 positions
*** Inversion
bien regarder le sens des reads. On peut rajouter "color by pair orientation" = colorie les reads qui ne sont pas orienté face-à-face (= normale)
Pour avoir les limites de l'inversion, regarder le "pair as mate"
*Attention à vérifier l'absence de délétion avec BLAT sur un read !*
** CNV
- regarder dans UCSC si codant (non précisé dans aurapport)
- ne pas utilise la VAF
- vérifier si "vrai" (profondeur, reads porter) -> attention à la qualité : on n'utilise que les reads avec une qualité suffisante (phred > 10 ?) mais samplot montre tous les reads...
Attention dup intragénique = perte de fonction
** TODO SNV
- vérifier si propre IGV
- Vérifier dans gnomad
* Outils :
- [[id:acd19ba4-71a4-44d9-a054-fc4cca17b377][IGV]]
- [[id:b71b2e16-0970-4272-ac54-74ca4588487d][Rendre un variant]]
- Lundi et jeudi matin envoyé à la main dans hygen
- [[id:d402eb63-2fc9-45d0-b261-f06a1fb10aa1][Entraînement pour interprétation]]
* Vérifications
- ROH : N. Chatron n'est fait rien...
- Regarder les QC et ploïdie
* Cas particuliers
[[id:f6ea0248-d5d3-472e-883c-5e9dc14fe57b][Mosaïcisme]]
- [[id:cf450d26-ad6a-49cb-83f0-b88c83d0aea9][Données incidentes]]
* Ressources
- [[https://anpgm.fr/media/documents/BP-NGSDiag_001_Interpretation_Variants_v2.pdf][Recos NGS diag]]
- [[file:~/Documents/formation_bioinfo/5.6_SV_visualisation.pdf][Illustration IGV des remaniements]]
- [[id:2839cb56-73c3-4aef-85f1-e9e8d2d553b2][Bandes chromosomiques]]
** Bases de données
** CNV
- DGV : > 50bp chez patients sains
- dbVar : > 1kbp, clinique s (clinvar), common (100G, gnomaAD, decipher) + long read (GIAB)
:PROPERTIES:
:ID: 6b6506f8-dd5a-4c44-bdad-8cb1030825fd
:END:
#+title: Inférence sur le nom de famille
#+filetags: facebook
Principe : nom de famille passé de père en fils, ce qui fait une corrélation transitoire avec haplotype chromosome Y
on prend alors l'haplotype du chrY du génome inconnu et le compare aux bases généalogiques génétique
Le parent le plus proche a probablement le même nom de famille
10-14% homme blancs amériancts en utilisant 2 sites généalogiques [cite:@gymrek2013]
Nom de famille assez rare aux états-unis (<40k hommes)
Et sont facilement cherchable
Exemple de 50 individus du 1000 genomes projects qui ont été retrouvés (citation 34 de [cite:@erlich2014] )
Limite:
- utilise STR du Y, absent des séquencages (doit être rapporté !)
- erreurs d'orthographes
- ne fonctionne pas sur les chinois (400millions ont 1 des 10 noms les plus communs)
Autre que chrY ?
En 2014:
- mitochondrie (mitosearch, femé en 2018) -> probablement peu informatif car les haplotypes sont partagés par de nombreaux individus (petite taille du génome) Et nom de famille fémimninl
- autosomique : https://www.gedmatch.com/ -> encore en activités
:PROPERTIES:
:ID: 251e0220-bdc5-465d-ae46-70206a35d290
:END:
#+title: Habilitation auragen
#+filetags: formation
- [x] Matinée formation visio
- [X] QCM après formation visio
- [X] [[id:ab5f1297-f2f9-48e6-9436-6dea3cb84813][Formation Kaliab]]
- [ ] Tuteur : Julien
:PROPERTIES:
:ID: dbc08959-c79f-4ec2-82c9-6ef9f4d1312d
:END:
#+title: Génétique médicale
Hyperthermie maligne : /RYR1/
https://www.orpha.net/en/disease/detail/423 Attention à l'anesthésie !
Huntington $\ge 36$ répétition de /HTT/ (source uptodate)
Snydrome de Feingold type 2 : MYRNH17
:PROPERTIES:
:ID: 1195c13b-032c-4d14-ab3e-e42282f70704
:END:
#+title: Gènes
#+filetags: bio
:PROPERTIES:
:ID: 6ee24af9-f9fd-4046-8c3a-3b0d077123b3
:END:
#+title: Gains et pertes > 21kb
#+filetags: appelvariants cnv
CNVator :
- approche "read depth" = rupture de profondeur (par opposition à Manta [[id:7c2aae7d-c1a3-4ff5-91f4-14888c6fd590][Délétion et duplications 50bp - 21kb]])
- Critères
- 80% lectures sans alignement multiple
- non récurrente (<1% population et cohorte)
- absent apparenté à l'état homozygote
[[id:587dc7c4-1dd5-4068-8d24-6e3825f01e66][Validation]] :
- 96% RECALL pour pertes 87% gain, T21 vue
- limites: centromérique,télomérique, sans lecture chevauchantes
- avantage / ACPA: bornes plus précises, variants plus petites
- Erreur sur les gonosomes
- filtré en aval
- calcul de ploïdie "à la main"
visualisation
- samplot : taille de l'insertion (= distance entre les adaptateurs des reads)
- > si augmenté, duplication possilbe.
- insert size : illustratio sur diapo 5.6 mais le principe et qu'une délétion aura une grande insert size (car sera "étiré" sur le génome de référence). C'est l'inverse pour une duplication
Divers
- moins filtré que SNV (n'utilise pas les parents asympto)
- peut signaler un SNV combiné au cNV !
* Délétions homozygotes
:PROPERTIES:
:ID: 64f82f33-24bb-475b-ad85-3303c5a20a8d
:END:
- Découverts sur 1 cas + rétrospectif [[id:116b858b-5dd5-4b77-bd67-55fc3b7b76ea][Cas intéressants]]
- Quand les délétion est entourée par des régions de faible mappabilité ou petite délétion homozygotes dans del htz
- Corrigé avec approche manuelle (reproduisant la manière dont elles ont ét détecté)
1. séléction des zones faibles mappabilité (*exons* profondeur médiane 0 et couverture à 10x de 0%)
2. filtre délétions homozygotes > 1% cohorte
3. *cas index seul* on retient les délétion homozygotes présentes chez apparentés symptos, absent chez apparenté asympo
:PROPERTIES:
:ID: 0a1cc45a-c273-422e-8d4e-a86741fd06c0
:END:
#+title: Formation validation de méthodes
#+date: 2024-06-06
Estelle Bugni
Société de consulting + biologiste probioqual. Fait aussi de l'éthique
* Théorie
** Objectifs
- différence vérification et validation
- principes de bases
- savoir analyser les risques
- savoir mener un projet + rédiger un dossier (vérif/valid)
- gérer ajouts et extension portée d'accréditation
** Définition
- Vérification : portée A = on utilise le kit non modifié qui a déjà été testé par le fournisseur (= méthode reconnue)
- Validation = portée B = si on modifie le kit/manière de faire ou si on créé un kit (= on ne peut pas utiliser la méthode reconnue)
- Ex: si on change le tube, il faut démontrer que cela marche mais le principe est de rester en portée A
- Répétabilité = le même échantillon, dans les mêmes conditions (oérateur, réactif, instrument échantillonage). Idéalement 30 mesures
- sur toutes les matrices prévues : sang, urine...
- écart-type, moyenne, coefficient de variation (ecart type/moyenne)
- Reproductibilité = fidélité intermédaire = correspond au coefficient de dvariant (= écart type relatif, mesure la dispersion)
- même échantillion mais jour, opérateur différent
- écart-type, moyenne, coefficient de variation (ecart type/moyenne)
- comparaison au CV acceptable défini -> *il faut avoir défini la limite avant* !
- Justesse = correspond à la moyenne (dispersion peut être importante)
- comparaison d'une moyenne à une valeur cible.
- CIQ externalisé (on compare à la moyenne des autres). Comparé à un biais acceptable *défini*
- exactitude = comparaison d'*une seule* valeur -> EEQ. Comparaison à une erreur totale
** Étapes
1. définir les besoins = limites acceptable
2. protocole) = le plus long+++
3. réaliser les tests
4. Écrire le dossier
ex: quantification d'ADN
Objectif montre que la méthode fonctionne /dans les conditions normales du laboratoire/
** Ce qu'il faut respecter
- norme NF EN ISO 15189 version 2012 et 2022 (les 2 existent : si écart sur la norme 2022, on compare à la 2012) = européen
- SH REF 02 = spécifique à la France, par le COFRAC version 7 et 8 (relatiif à la 15189 2012 et 2022 respectivement)
- SH REF 08 version 6 (version 7 en octobre 2021) définit les /règles sur la portées d'accréditation/
- SH INF50 rev 07 = liste des portées
- GEN RFE rev 09 = définit le logo COFRAC -> il faut mentionner les analysées accréditées
** Guide techniques
SH GTA
- 01 rev 02 = version "pour les nuls" !
- 02 = informatique (bien fait !)
- 03 = anapath
- *04 = accréditation de vérification/validation*
- 05 = biologie de la reproduction
- 06 = contrôle qualité
- *07 = génétique* (rien de spécifique)
- 14 = incertitudes de mesures
- 15 = ceux qui appartiennet à des groupements hospitaliers (GHT)
Matériel et réactifs = à valider (surprise... la nouvelle version ne change rien)
*** SH GTA 04 rev 02
- quantitatif = valeur numérique
- qualitiatif = ce qu'on ne peut pas exprimes quantitativement (positif/négatif, identification)
Étapes
1. vérification(portée A)/validation (portée B)
2. déclaration d'aptutide
3. puis il faut se préparer à passer en routine (formation du personnel, documentation, audit interne...)
- Astuce: il faut une "checklist"
4. la méthode est autorisée à être employée
- ajout ou extension (cf ci-dessous)
*** Ajout vs extension
- Ajout : on peut ajouter des examens sur une "ligne" dans une ligne de portée car on considère qu'on est dans le même cadre. C'est plus simple car il faut "juste" remplir un document
- en portée A: ok
- attention à la portée B: il faut 2 méthodes déjà en portée B pour ajouter ! (10.3 du SH REF 08: il faut qu'il y ait une virgule...)
- Sur une autre ligne, il faut une extension et le COFRAC doit venir
- note: basculer de A vers B est une extension !
** Protocole
quantitatif/qualitif : portée A et B identique sur les critère
limite de détection = qualitative
- exceptionnelement, on veut quantifier ... exemple de la cocaîine (< seuil de mesure)
limite de quantification = quantitatif
*** Méthode quantitative
Obligatoire, vérifier sur site
- répétabilité
- fidélité intermédiaire
- justesse/exactitude *obligatoire* ! Comparaison avec autre labo par exemple
- incertitudevariabilité interopérateur
Biblio pour le reste
- intervalle de mesure, limite de quantif, linéarité (mais intéressant de vérifier)
- le plus simple/efficace pour limite de quantif = dilution jusqu'à coefficient de variation (CV) encore correct
- attention au bruit de fond
- contamination échantillion: dépend du système, analyse de risque
- robustesse : flou, obligatoire en portée B. A regarder au cas-par-cas. Exemple: mises au frigo/congélateur
*Pas* de limite de détection, pas de sensibilité/spécificité
**** Incertitude de mesure
- erreur de décalage + erreur de dispersion
- cf SH GTA 14 pour les formules
- sert à savoir si résultat vraiment positif ou négatif (interprétable si zone grise -> refaire dosage)
*** Limite de quantification
- Plus petite valeur mesurée avec fiabilité acceptable et incertitude connue
- ex: multiple dilution
*** Méthode qualitative
Idem quantitif sauf que
- Analyse de risque = le plus important
- *pas* d'intervalle de mesure, limite de linéairité
Attention limite de linéarité données par le fournissieur peut être faux
** Notes
- conserver toutes les données brutes de validation de méthode (durée d'utilisation + 24 mois)
- mettre les données brutes dans le dossier de VDM (plus pratique et + utile pour auditeur COFRAC)
- validation bioinformatique: initiale (résultats = juste) puis au long cours (pas de déviance)
- respecter ce qui est fait au laboratoire -> sinon écart !
- vdm avant utilisation sous accréditation (mais on peut utiliser une technique sans être acrédité)
- si changement sur une technique accréditée, il faut re-valider (ce qui sera évalué sur le prochain audit) avant rendre les résultats patients. Si on passe en portée B, il faut faire venir le COFRAC
- bien suivre le modèle dans SH FORM43
- conclusion par analyse "répond bien au besoin" (qui doit donc être en )
- date d'aptitude (validation OK) != date d'utilisation (= utilisé avec logo cofrac)
- depuis 26 mars 2024 : il faut utiliser un marquage CE. Si on utilise des méthodes non CE, il faut jutsifier que les méthodes CE existantes ne suffisent pas. En pratique, à l'arrêt car "personne n'y croit"
** Comparaison de méthode
Si on remplace une technique/équipement ou 2 techniques/équipements en parallèles (ex: en mirror, en backup, manuel et automatisé)
- analyse des même échantillions en conditinos de routine sur les 2 techniques
- nombre d'échantillons définis par le biologiste (>= 30 si ce n'est pas coûteux)
Méthodes :
- 2 méthodes
- variables quantitatif : rangs signés de Wilcoxon
- variables ordinal : Start-maxwell
- variable binaire : test McNemar, kappa de Cohen
- > 2 :
- variable binaire : Q de Cochran
- sinon ANOVA
Notes: ANOVA permet d'évaluer la variabilité interopérateur
** Contamination inter-échantillons et inter-réactifs
- inter-échantillion: risque en biologie moléculaire
- 3 répétitions par niveau haut et bas puis formule moyenne b1 - moyenne bas 3)/(mohautte haute - moyenne base 3)x100
-> non utile en génétique
- stabilité pré-analytique : moins important qu'en biochimie
** Comment définir les performances acceptables
- Présentation non adaptée à la génétique.
- Pistes : expérience++, kit du fournisseur
* Cas pratique
- Étude VDM somatique Auragen "SH-FORM-43 VDM WGS Illumina DNA Prep génétique somatique manuelle 10.03.22". Très complet mais manque l'analyse de risque (faite par processus mais non mentionnée)
- Qualification extraction d'ADN (Maxwell 48)
- répétabilité : 1 échantillion x7 -> justifier le "7x"
- comparaison interopérateur
- comparaison avec maxwell 16
- il faut des critères d'acceptabilité au long cours -> refaire le point une fois par an
* QCM
- SH FORM non obligatoire, on peut utiliser un excel
- Habilitation portée A et B = obligatoir
- Modif pré-analytique : pas de validation en portée B si pas d'impact !
- aptitude de méthode (ok pour limites de l'analyse)!= autorisation d'emploi (ok pour logo cofrac)
- SH REF2 : écart si non respecté
- SH GTA = guide seul donc pas d'obligation
:PROPERTIES:
:ID: ab5f1297-f2f9-48e6-9436-6dea3cb84813
:END:
#+title: Formation Kaliab
#+date: 2024-05-15
https://kaliliab.auragen.fr
Norme 2012 actuellement -> MAJ 2022 prévue
fiche de fonction validé par Christine puis par nous. Voir espace personnel -> fonction -> touche "action"
- responsabilité
Qualification
- validation + diffusion résultat des examen
- prestation de conseil
- participation pilotage post-analytique
- formation/expérience
manaquement qualité (formation auragen, engagement confidentialité, attestation formation q)
Fiches qualité -> non conformités, réclamations, évènement indésirables
Non-conformité : mettre le maximum d'information (relecture par
Christine Waymel si incomplète)
Ajout action curative : Impact/causes/mesure
Audit : option dans modification
Revue de processus
:PROPERTIES:
:ID: 923cc8ea-eb7e-424d-989e-062b943d281e
:END:
#+title: Filtres
[[https://auragen.atlassian.net/wiki/spaces/~7120201ca2598be5ef4936a1110033f28f4fed/overview][Vue d'ensemble du pipeline]]
#+BEGIN_SRC dot :file images/test-dot.png :exports results
digraph TD {
F1[label="Filtres primaires\n(big list)"]
A2[label="Annotation Curagen\n(tight list)"]
F[label="Filtres Curagène"]
VEP -> F1
F1 -> SeqOne
F1 -> A2
A2 -> F -> Rapport
}
#+END_SRC
#+RESULTS:
[[file:images/test-dot.png]]
* Filtres primaires
- (probablement) patho clinvar
- ou (AF < 5 % gnomad v3 et (AF < 1% gnomad et < 10% cohorte Auragen)
Attention, on ne filtre plus sur (VAF > 10% et au moins 2 reads avec variation) pour seqone
* [[id:94038e1b-de4f-48f2-acc4-0ee0e75cf197][Curagen]]
* SNV
:PROPERTIES:
:ID: e4568e0f-e9e1-4432-9b56-c2cece9d9d11
:END:
#+title: Expansionhunter
#+filetags: auragen appelvariants
- Auragène
- 31 loci connus
- biblio pour définieur seuils, motifs, marge d'erreur
Principe :
- expansion < taille read : nombre de répétion exact -> fiable
- expansion ~ taille read : estimé à partir des reads contenant une partie -> confiance modérée (proche seuil patho)
- expansion > taille read : estimé à partir des reads contenu dans répétitions -> fiable (>> seuil patho)
validation de méthode
- 40 dossiers rétrospectifs avec analyse ciblée demande : 1 expanson patho DMPK -> validé PCR
- Rétrospectif: 96.5% dossiers attendus sans STR (2183 dossier en septembre 2022) -> accompagnement pour 3.5%
- TCF4 majoritaire
Visu disponible si expansion patho
:PROPERTIES:
:ID: 0f58767c-07ff-401b-977d-15d454a3ab0f
:END:
#+title: Exemples de variants structurels
invdup MR-2203330 rendu chr8:g.( ?_8,231,549)_10,888,653delins11,100,482_(12,035,836_?)inv
inversion paracentrique 18q MR-2402177 30Mb chr18:36,491,658-67,312,508
:PROPERTIES:
:ID: d402eb63-2fc9-45d0-b261-f06a1fb10aa1
:END:
#+title: Entraînement pour interprétation
#+filetags: auragen interpretation formation
- "avancées du mois" dans Aurapport = diag déjà rendu
- [[id:0128811c-6cba-4142-a1b9-1d54df0d1b1c][Curagen v2]]
:PROPERTIES:
:ID: cf450d26-ad6a-49cb-83f0-b88c83d0aea9
:END:
#+title: Données incidentes
#+filetags: compte-rendu auragen
Pas l'autorisation pour les rendre ! Pas dans le consentement. À discuter avec prescripteurs
:PROPERTIES:
:ID: 28e01aab-f252-433f-be2c-1491d4deae9b
:END:
#+title: Disomie uniparentale
Définition: 2 copies d'un chromosome d'un seul parent
Cause
- hétérodisomie = 2 chromosomes différents du même parent sont hérités
- isodisomie = 1 seule chromosome mais dupliqué d'un parent
:PROPERTIES:
:ID: 0128811c-6cba-4142-a1b9-1d54df0d1b1c
:END:
#+title: Curagen v2
Contexte
- rattraper variants non rendus aurapport
- réécriture Virgine + Julien de zéro de Curagen (écrit par Valentin). Note: certaines parties étaient obscures comme le filtre sur la titine
Mission:
- interpréter variants corrigés curagen (en aveugle initialement: a priori passe de classe 4/5 à 3)
- comprendre nouveaux filtres
Voir [[id:b2efd060-db25-414f-bd38-8c1ff2bbfdc9][Manqué curagen v2]]
Résultats ([[file:~/Documents/CuragenV2_20240527_Auragen.pdf][pdf]] ) : 98.94% des variants sont dans auraaport (1420 variants). Sur les 14
-
:PROPERTIES:
:ID: 94038e1b-de4f-48f2-acc4-0ee0e75cf197
:END:
#+title: Curagen
#+filetags: filtres auragen
* Annotations
- Présent gènes filières ("expert") : booléean
- HPO: classé à partir des termes rentrés par le prescripteur (phrank)
- régions d'homozygotie : voir [[id:92f64d28-a582-484b-8181-ea04c13d850d][ROH]]
- transmission :
- /homozygote/: 1 allèle alternatix ou VAB >= 90%
- /complex/ : 2 allèles alternatifs différents
- /undetermined/ si parent manquant/structure familiale complexe
- hétérozygote de novo
- /de_novo/ : non retrouvé cohorte, >= 2 lectures cas index et < 2 lectures parents
- /de_novo_high_ac/ : retrouvé cohorte
- /possilbe_de_novo/ : >= 2 reads chez parent mais gT parental 0/0
- hétérozygote hérité d'un parent
- /inherited_parental_lineage_1/ ou /_2/ : sans ambiguité
- /undetermined/ : si ambiguïté (présent chez 2 parent)
- /possible_parent1/2/ : 1 parent non séquencé/génotypé
- /mendelian_error/ : 2 parents homozygotes et index hétérozygote par exemple
** Corrélation génotype-phénotype
- /segregating/ ou /not-segregating/ (il faut que le parent soit marqué atteint ou non)
- pénétrance incomplète si /not_segregating/ : /family_positive/ 2/3 par exemple, /family_negative/ 0/0
- porteur ou non selon le l'allèle alternatif du cas index
- rappel : hts = hétérozygote sur allèle alteratif (génotype 0/1), complexe = 2 allèles alt (0/2)
- ex: index htz et apparenté htz -> apparenté porteur
- idem si index hmz alt
- attention si index htz et apparent hmz alt : porteur si non atteinte mais inconclusif si atteint
- voir diapos pour différents status
- /family_positive/ = nb porteur atteint/nb porteurs (valeur prédictive positive)
- /family_negative/ = nb non porteur non atteint/nb non porteurs (valeur prédictive positive)
** Au niveau du transcript transcript
- transcript "biallélique" (>= 1 variation sur chaque allèle parental). Rappel: on est à l'échelle d'un gène !
- on ne connait pas le phasage ! On l'infère à partir de la transmission de variants calculée ci-dessus
- il y 2 allèles alternatifs à la même position de sûr si taggé /homozygous/ ou /complex/ (par définition, cf supra)
- 2 allèles alternatifs pas forcément à la même position si /possible_parent1/ ou /inherited_parental_lineage_1/
- on ne sait pas si /de_novo/ (high_ac ou possible également) ou /undetermined/
- calculé sur le transcrit et appliqué à tous les variants de celui-ci
- /biallelic/ : >= 1 certain
- /biallelic_de_novo/ : idem mais >= 1 de novo
- /possible_biallelic/ si 1 ou 2 incertains
- worst impact sur transcrit : si /biallelic/ ou /possible_biallelic/, on prend le pire impact pour chaque allèles
- toujours sur le transcrit !
- ex: 1 = modifier, moderate, 2 = high, moderate -> moderate-high
- pour un allèle, on prend la pire annotation pour les variants qui sont sur cette allèle de sûr. Sinon la pire annotation des incertains. IDem pour l'autre allèle
- ex :
- allèle 1 = 0 certains 2 incertains (moderate, high) -> high
- allèle 2 : 2 certains (low, modifier) -> low
* Filtres
- VAF > 10% et au moins 2 reads avec variation ?
- VAF >= 25% *et*
- impact codant/épissage (HIGH/MODERATE/splice_region_variant)
- ou clinvar (probablement) patho
- ou impact épissage (CAD phread > 25 ou spliceai >= 0.2)
** Si >= 1 parent
- /non/ clinvar (probablement) bénin
- *et*
- de novo (il faut les 2 parents)
- ou transcrit avec variation biallélique (hmz ou htz composite)
- ou ségrège dans la famille
- ou clinvar (probablement)) patho
- *et*
- gène en lien avec clinique
- ou de novo stricte <= 5 fois dans gnomad (il faut les 2 parent)
- ou transcrit avec variation biallélique avec variant impactang codant/épissage /hérité de chaque parent/
** Pas de parent
- AF cohorte < 5 *et*
- clinvar (probablement) patho
- ou (gène en line avec clinique *et* < 10 fois gnomad)
:PROPERTIES:
:ID: 052cd331-6a82-40d7-bde4-11df5bbcc07b
:END:
#+title: Configuration Ubuntu
Pouvoir faire des clone http
1. Configurer proxy
git config --global http.proxy http://proxy-chuga.exploitation.chug.alp:3127/proxy.pac
2. ajouter certificat globalement (sinon pour git $env.GIT_SSL_CAINFO)
- Renommer RootCA-CHUGA.cer en RootCA-CHUGA.crt (il doit y avoir begin_certificate end_certificate) et mettre dans /usr/local/share/ca-certificate
- Puis update-ca-certificate
:PROPERTIES:
:ID: 247f9296-5b37-4060-ab66-6835b9b201f9
:END:
#+title: Cohorte
#+filetags: auragen
Constitution
- Décembre 2023: 1860 patients
- Profondeur 30-55
- *asymptomatique*, non apparenté
- quasi-parité Utilité
- filtre artefact (si vu > 10%)
- contrôle qualité
- régions mal séquences, confiance pour absence variation région d'intérêt
#+title: Processed pseudogenes acquired somatically during cancer development
#+date: [2024-07-17 Wed 17:35]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T173522
#+reference: cooke2014processed
Utilisé en cancer mais le principe a été vu auilleurs
- reads qui sont exactement sur des sites canoniques d'épissage qui sont aligné sur des exons mais avec une taille d'insert trop grand
- ou reads qui sont entre nu pseudogene et son side d'insertion
- candidat : >= 3 exons d'un gène dans l'ADN de la tumeur avec >= 2 site canonique d'épissage
- élimintation germiline
#+title: Identification of Pseudogenes in Brachypodium distachyon Chromosomes
#+date: [2024-07-17 Wed 17:33]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T173314
#+reference: camiolo2018identification
Algorithme de [cite:@camiolo2018identification] , inspiré de [cite:@zhang2006pseudopipe]
Identification
1. séquence peptidique pour exons codons = utilisé pour recherche tPlantN sur une version "hard masked" du génome de référence
2. CDS qui correspondent à > 30% d'une région répétée filtrées
3. exon codant + nucléotide des régions adjacente (entre 51 et 53bp) : on sélection les hit avec > 50% d'intetié et e-value < 10-6
4. fusion des résultat si < 100bp
5. hit overlap > 20% sont groupé et on ne retinent que les meilleures paire pseudègene-requte
6. classification dupliqué/processe/ambigue
#+title: Structural characterization and duplication modes of pseudogenes in plants
#+date: [2024-07-17 Wed 17:20]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T172022
#+reference: mascagni2021structural
Plantes. Récent et nature. Code non disponible
Algorithme de [cite:@camiolo2018identification] , inspiré de [cite:@zhang2006pseudopipe]
#+title: Re-recognition of pseudogenes: From molecular to clinical applications
#+date: [2024-07-17 Wed 16:42]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T164222
#+reference: chen2020rerecognition
Non lu mais (hormi l'aspect logiciel + conclusion).
Donne beaucoup d'informations sur les pseudogène et leur fonction (ADN, ARN, protéine), idéal intro mais long
* Détection
** ADN
- pseudopipe
- pseudofinder
- retrofindder
Base de données : ENCODE, FANTOM = construite sur plusieurs pipeline -> gold standard
** ARN
RNA-seq = choix de référence. Nombreux pipeline
qRT-PCR et microarray moins chez mais attentio à la spécificité des sontes
ISH et FISH = distribution des transcripts
* Conclusions de l'article
1. != poubelle car nombreuses fonction (ADN, ARN, protéine) notamment la capacité d'encode des proténies fonctionnelles !
2. produit de mutation dans un gène -> 3 catégories
3. spécificités associés à une cilinuqe notamment une distributuion large et inégale, une expression avec des motifs spatiotemporels et conservé dans l'évolution -> utilisation possible en diagnostic, pronostic et thérapeutique
4. méthode actuelle améliorées au niveau de l'ADN et ARN mais encore au début
#+title: Loss to gain: pseudogenes in microorganisms, focusing on eubacteria, and their biological significance
#+date: [2024-07-17 Wed 16:10]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T161021
#+reference: yang24loss
Revue, axée bactério mais fait le travail
Types de pseudogène (image décente)
- dupliqué ("unprocessed")
- rétropseudogene ("processed")
- et pour les mamifère : dérivé d'ARN circulaire
Identification
- pseudopipe [cite:@zhang2006pseudopipe]
- pseudofinder [cite:@zhang2006pseudopipe]
- rétrofinder [cite:@baertsch2008retrofinder]
- sideRETRO [cite:@miller2021sideretro]
- psyfinder [cite:@abrahamsson22ppsifinder]
- pseudofinder [cite:@syber2022pseudofinder] (2022)
Base de données
- psidR par GENCODE (intégration de plusieurs pipeline)
- pseudoMap
- pseudoFam
- pseudogene
- pseudoFuN
- Dreambase
#+title: Discovery of non-reference processed pseudogenes in the Swedish population
#+date: [2024-07-17 Wed 15:38]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T153851
#+reference: boer2023processen
Objectif : nouveaux processed pseudogene à partir de génome
Contexte: déjà fait mais à 5x seulement
Code: Processen https://github.com/J35P312/Processen
Algorithme
- pairs avec reads sur même gène mais exons différent avec taille d'insert plus grande qu'attendue
- ces reads sont aligné sur le transcriptome avec Salmon
- position : on cherche variants de structure dans le vcf annoté (delly pour appel de variant, VEP) pour annot puis
- insertion si une position est proche du début ou fin du gène parent /et/ autre position sur autre chromosome/l'équivalent de la longeur du gène parent
- site d'insertion fusionnés si <= 500bp
visualation : circos plot (logiciel)
Résultats
- appliqués au génome de 1000genomes + cohorte SweGen : 3 021 processed pseudogene manquant dans GRch38
#+title: The GENCODE pseudogene resource
#+date: [2024-07-17 Wed 15:11]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T151124
#+reference: pei2012gencode
Méthode :
- combinaison de
- prédiction par pseudopipe et rétrofider (~9k)
- confirmation manuelle (11k)
- donc ~7k sont à l'intresection
- enfin, comparaison à des donnée fonctionnelles (ENCODE) et variantions génomiqe (1000 genomes)
- annoté par biotype selon mécanisme
non lu en détail
#+title: Ensuring privacy and security of genomic data and functionalities
#+date: [2024-07-17 Wed 14:48]
#+filetags: :bib:facebook:
#+identifier: 20240717T144855
#+reference: yakubu2019
Super tableau avec les types d'attaques et les articles
Figure 1 qui résume bien la classification
Discute cryptographique, techniques pour préserver confidentalité -> non lu
* Attaques
** Identity tracing attack
À partir de l'ADN (anonymisé oun no identifié) -> identifie le patient avec des quasi-identifier (age, sexe, nom de famille etc) obtenu depuis réseaux sociaux ou bases ded onnées publique (peoplesmart, findoutthetruth)
Ex: nom de famille trouvé pour
- partisan PGP (Sweeney 2013)
- à partir du chrY [cite:@gymrek2013]
[cite:@erlich2018] : à partir du génome d'un suspect, on cherche ses apparenté dans des services public de généalogie
Avec un service qui répond oui/non pour un allèle dans un génome, on peut savoir si un individu est présent dans cette base[cite:@shringarpure2015]
** Attribute disclosure
Prédire attributs "sensible" des victimes (phénotype, association maladie, drogue
ADN connu
On cherche base de données d'étude génétique ou GWAS
Stastitique aggréges ne cachent pas [cite:@cai2015]
Si on a le phénotype complet et accès au génotype de pluseurs individus, on peut retrouver le génotype et en déduire une présdisposition alzheimer dans [cite:@humbert2015anonymizing]
[cite:@lippert2017] Prédiction de caractéres phénotypique (parte 1) et identification basée dessus parmis une pré-selection. Critique violente par [cite:@erlich2017major] : age, sex et ethinicité suffisent à avoir la même précision
Pharmacogénétique: inversion d'un modèle prédisant warfarine pour un undifiviut: on peut avoir la génétique et certains paramètres (age, ethnie, taille, poids)
** Completion attacks
Reconstruction de l'information génétique à partir
- de l'ADN parcellaire de la cible
- ou de l'ADN de la famille
- Possible du fait de la corrélation importante.
- Pionnier [cite:@humbert2013addressing]
- réciproque : ADN de la famille à partir du cas index [cite:@humbert2017quantifying] (même modèle mais amélioré -- ils ont juste mis à jour l'article)
amélioration [cite:@deznabi2018inference] avec corrélation complexe mais même idée
Prédiction génotype et phénotype: [cite:@he2020inference]
Enfin, une technique complètemenet différente: utilisation des haplotypes identiques dans la généalogiue (IBD = identical by descent) [cite:@kong2008detection]
** Tableau
| Type | Article | Données de la cible | Données externes | Résultat | Performance | Méthode |
|------------+--------------------------------+----------------------------------+-------------------------------------+--------------------------+----------------------------------+-----------------------------|
| Identity | [cite:@sweeney2013] | démographie [fn:1] | registre de vote, autre | Nom et prénom | 35% | Simple comparaison |
| tracing | [cite:@gymrek2013] | STR du chrY | généalogie avec génétique | Nom de famille | 12% | Score de confiance pondéré |
| | [cite:@shringarpure2015] | VCF, modèle des AF | non | Présent dans la base | puissance 95% [fn:4] | Likelyhood-ratio test[fn:3] |
| | | de la pop. cible | | | (250SNP) | |
| | [cite:@raisaro2017] | VCF, AF | non | Présent dans la base | puissance 100% [fn:4] | Likelyhood-ratio test |
| | | | | | (36SNP) | |
| | [cite:@vonthenen2019] | VCF | | Présent dans la base | puissance 100% [fn:4] | Linkage desequilibrium |
| | | | | | (450 requêtes) | |
| | | | | Présent dans la base | même pour SNP | Chaine de Markov |
| | | | | | filtré MAF < 3% | |
| | [cite:@erlich2018] | test DTC[fn:5] | généalogie avec génétique | Apparenté [fn:8] | 60% | Segments ADN hérité |
| | | (+/- position, âge, sexe) | | Individu cible | 1-2 candidats[fn:6] | |
|------------+--------------------------------+----------------------------------+-------------------------------------+--------------------------+----------------------------------+-----------------------------|
| Attribute | [cite:@cai2015] [fn:13] | > 25 SNPs | statistiques GWAS | Individu dans GWAS | 12-20 personnes [fn:7] | Data mining |
| disclosure | [cite:@humbert2015anonymizing] | phénotype complet | corrélation SNP-phénotype | Prédisposition Alzheimer | 85% (80 individus) | statistiques |
| | | | SNPs de différents individus [fn:9] | | | |
| | [cite:@lippert2017] | | | Phénotype d'un individu | moyenne à mauvaise[fn:10] | |
| | | | | Identification parmi | | |
| | | génome | non | un préselection[fn:11] | précision 0.45 [fn:12] | Machine learning |
|------------+--------------------------------+----------------------------------+-------------------------------------+--------------------------+----------------------------------+-----------------------------|
| Completion | [cite:@humbert2013addressing] | SNP parent, généalogie, MAF SNPs | généalogie | SNP cible | erreur entre 0.05 et 0.2 [fn:14] | Belief propagation |
| | | linkage desequilibrium | | | | |
| | [cite:@humbert2017quantifying] | idem mais >= 1 individus | | idem mais >1 individu | | |
| | [cite:@deznabi2018inference] | idem mais corrélation | | | | |
| | | plus complexes (à citer ??) | | | | |
| | [cite:@he2020inference] | idem mais phénotype prédi | | | erreur 0:4 et 0.5 | |
Autre
[cite:@fredrikson2014privacy] : contrairement à ce qui est mentionné dans la revue, ne regarde que le génotype donc pas intéressant ici
* Footnotes
[fn:14] selon famille. Préciser incertitude et type de tests ?
[fn:13] je ne mentionne pas les 2 autres études qui utilisent plus de SNPs (2008 et 2009)
[fn:12] Voir [cite:@erlich2017major] pour une réfutation
[fn:11] pré-selectionnés sur le phénotype. performance similaire (0.53) pour faire corresponder des phénotype et des génotype
[fn:10] À préciser ?
[fn:9] retrouve d'abord le génotype
[fn:8] cousin 3e degré
[fn:7] Ordre de grandeur des GWAS 1400-2000 individus
[fn:6] En supposant connu: la position +/- 160km, âge +/-5 an et sexe (cas d'usage: recherche policière)
[fn:5] Test en pharmacie avec 700 000 sondes
[fn:4] Avec 5% de faux positifs
[fn:3] Statistique
[fn:2] Distribution dite "beta"
[fn:1] age, sexe, code postal
#+title: Re-identification of individuals in genomic data-sharing beacons via allele inference
#+date: [2024-07-17 Wed 14:47]
#+filetags: :bib:facebook:
#+identifier: 20240717T144750
#+reference: vonthenen2019
Amélioration de [cite:@shringarpure2015] et[cite:@raisaro2017] : meilleure sélection des SNP et infère les allèles cachée
Contrainte: l'attaquant à accès
- aux MAF de la population contenant la cible
- le linkage desequilibrium (corrélaction entre 2 SNPs)
* Méthode
Technique: "linkage deisequilibrium"
Pour les partes manquante : high-order Markdov chain
* Résultat
Testé sur 65 indiviu CEU du projet Hapmap
beacon de 65 personnes CEU hapmap
Avec 450 requêtes, puissancee de 100% et 5% de faux positifs. ON retrouve les SNPS filtrés MAF < 0.03
-
#+title: Iterative gene prediction and pseudogene removal improves genome annotation
#+date: [2024-07-17 Wed 14:47]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T144733
#+reference: van2006ppfinder
Non maintenu, code source https://mblab.wustl.edu/software/download/ppfinder.1.tar.gz
Processed seuls
Utilise N-SCAN pour estimer le gène parent
* Méthode
pour un "modèle de gène", essaie de trouver un gène parent qui aurait donné le pseudogène par rétroposition
NB: exemple de modèle : exon pseudogene + exon1 + eon2
** Liste candidats
*** Technique 1: introns
Principe : ceux qui ne sont pas dérivé du pseudogene = match seulement eux-même et gène de la même famille.
Pseudogène vont matcher sur leur parent
1. BLASTn du gène sur une base de données (même organisme)
2. on choisit le meilleur transcrit
3. on récupère la séquence du parent potentiel
4. ce parent est aligné
5. si les "trous" dans l'alignement ne correspondent pas introns du gène, c'est potentiellement un pseudogene
Limite: si le segment aligne sur un seul exon. Ou si le parent a un seul exon (mais apparement géré au cas par cas dans le supplementary)
*** Technique 2 : conserved synteny
1. Pour chaque exon du "gene model", BLASTp sur une base de donnée de protéine
2. on garde les hits > 65% sur >= 9 acides aminés
3. Si les hit n'ent pas la même position que le modèle, potentiel pseudogene (nombreux résultats !)
4. comparaison avec un autre génome (ci: souris).
- tBLASTn pour la comparaison
- correspondance avec synteny map UCSC (meilleur alignement de la souris pour tout le génome humain)
- si pas de correspondance dans une région orthologue (= dérivée d'un même ancêtre), pseudogène probable
Le principe est que les pseudogène vont disparaître avec le temps
Limite : ne gère pas les pseudogène ancestraux
** Filtres
Faux positifs
- technique 1 : les gènes de la même famille sont différents sont >= 1 introns
- technique 2 : se gène prédit appartient à une famille et avec >= 1 exons en dehors des régions de "conserverd synteny"
Vérification: gène parent aligné sur la région génomique autour du candidats
Les vrai pseudogène ont une longueur moyenne de "trous" (introns potentiels) <= 2*longueur moyenne des segments alignés (exons potentiels)
Ce filtre surprime les "processed pseudogene"
* Tests
- CCDS: on s'attend à avoir 0, en pratieque 0.3% = ce sont des rétrogene fonctionnels (car ils ont des "expressed sequence tags = EST"). Autres = petits introns
- track UCSCS "vega pseudogene" (groupe "Havana", désormais fait partie d'ENSEMBL) : 78%
- ENSEMBL: environ 50% ?
#+title: Pseudofinder: Detection of Pseudogenes in Prokaryotic Genomes
#+date: [2024-07-17 Wed 14:47]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T144719
#+reference: syber2022pseudofinder
Bactéries et archées ici
Très peu de pseudogène mais il en existe
En générale, annotation
- manuelle
- ou script maison
- pou pipeline (PGAP en 2016, DFAST en 2018) -> utilisép our annotation fonctionnelle
Outils récents
- génome de mammifère (20): le plus récent et Alsve 2020 avec un outil en ligne mais non accesible le <2024-06-24 lun.>
- pour les prokaryotic, plusieurs outils : plus récent = PEPPAN (Zhou 2020) mais fait ud pangénoème. Et apparement ils ne sont pas open-source, fait pour du pangénome ou les paramètres ne sont pas modifable
Algorithme: annotation d'un génome en comparaison avec une base de donnée de protéine ou un génome "proche"
Validation:
- génération aléatoire de pseudogène dans un génome de Shigella flexneri
- comparaison avec PGAP et DFAST
#+title: Identifying Participants in the Personal Genome Project by Name (A Re-identification Experiment)
#+date: [2024-07-17 Wed 14:47]
#+filetags: :bib:facebook:
#+identifier: 20240717T144704
#+reference: sweeney2013
Données
- 1130 profile du projet PGP -> 579 avec date de naissance, genre et code postal (US) à 5 chiffres
- registre de votant, accès à un site de base de données publique
Méthode: intersection entre PGP et ces 2 bases sur code postal, date de naissance et sexe
À noter que Nom des patients dans le fichier DNA extrait.... ex "enome_Elaine_Smith_Full_629562.txt."
Résultat: avec la base de données des vote : 130 correspondant unique -> 103 noms
sur record publique : 156 unique
donc 241 match cumulé
-> 84% correspondant (97% si on considère les surnoms)
Soit 35% sur le total
#+title: Privacy risks from genomic data-sharing beacons
#+date: [2024-07-17 Wed 14:46]
#+filetags: :bib:facebook:
#+identifier: 20240717T144648
#+reference: shringarpure2015
Service web qui répond oui/non à la question "y a-t-il un nuclétotide donnée à une position données".
Context : GA4GH veut proposer ce service
Peut-on dire si un individu est dans un beacon ?
Hypothèse
- On a un VCF avec les variants (ALT) et génotype à ces positions
- On ne connait pas les fréquences alléliques (pour être plus général) mais elles sont modélisées par une distribution Beta
Modèle stat (likelihood-ratio) pour ré-identifier.
* Méthode
- Données simulées: 500k SNP à partir de 1000 individus
- 100genomes : 65 individus CEU
* Résultat:
- Données simulée : puissance de 95% pour détecter un individu avec 5k requêtes
- données CEU: 250snp : 95% puisson et 5% faux positif
Plus performante si plusieurs popoulation (pas juste CEU)
#+title: Bayesian method to predict individual SNP genotypes from gene expression data
#+date: [2024-07-17 Wed 14:46]
#+filetags: :bib:facebook:
#+identifier: 20240717T144635
#+reference: schadt2012bayesian
Identification entre 90 et 98% selon les tissus dans [cite:@schadt2012bayesian] (foie, poumon) à partir d'ARN.
#+title: Ethical implications of epigenetics in the era of personalized medicine
#+date: [2024-07-17 Wed 14:46]
#+filetags: :bib:facebook:
#+identifier: 20240717T144620
#+reference: santalo2022ethic
Éthique de l'épigénétique
Risque de réidentification d'un échantiollon de doneur
Avec le séquencage whole-génome bisulfite (pour la méthylation des ilôts), on a l'ADN à la paire de base près
"absolute data confidentiality and privacy cannot be guaranteed"
mais mesure pour diminuer risuqe
1. filtrer l'information qui donne le génotype de manière indirecte
-> filtrer CpG ou probles avec SNP communs
2. On peut rapporter mutitation somatique mais pas germilne (reco de the cancer genome atlsa project [cite:@dyke2015epigenome] ) qui semble plus intéressante
3. variabilité des marqueurs épigénétique donc monis important (dépend du tissue, de l'âge du patient)
NB: épigénétique contient information sur le comportement de l'individu dans le passé + environnement
#+title: Estimating the success of re-identifications in incomplete datasets using generative models
#+date: [2024-07-17 Wed 14:44]
#+filetags: :bib:facebook:
#+identifier: 20240717T144446
#+reference: rocher2019estimating
un modèle entraîné sur des données démographiques anonymisées (rencesement, sondages) permet d'identifier 99.98% des Américains, indépendamment des données génétique. [cite:@rocher2019estimating]
#+title: Addressing Beacon re-identification attacks: quantification and mitigation of privacy risks
#+date: [2024-07-17 Wed 14:44]
#+filetags: :bib:facebook:
#+identifier: 20240717T144433
#+reference: raisaro2017
Article dans le même principe que [cite:@shringarpure2015]
Mais ici l'attaquant connait la fréquence allélique du beacon -> puissance plus importante.
Selon les auteurs, ce n'est pas aberrant car disponible sur des bases de données en ligne (1000 genome, hapmap...)
Il faut le VCF de la victime
* Résultat
502 échantillons EUR du 1000 genomes
- si l'ancestry est connu, 3 SNPs suffisent pour puissance de 100= et 5% faux positifs
- (plus réaliste): seulement férquence allélique connue d'une poplutaion (d'origine potentiellement différente du beaucon): 36SNps suffisent
#+title: SNPs for a universal individual identification panel
#+date: [2024-07-17 Wed 14:44]
#+filetags: :bib:facebook:
#+identifier: 20240717T144416
#+reference: pakstis2010snps
45 SNPs suffisent à identifier un individu parmi 44 populations.
#+title: On Jim Watson’s APOE status: genetic information is hard to hide
#+date: [2024-07-17 Wed 14:44]
#+filetags: :bib:facebook:
#+identifier: 20240717T144400
#+reference: nyholt2009jim
Illustration du principe linkage disequilibrium : en utilisant des SNPs autour d'AOPE associés significativement à des SNPs dans le gène ou à un risque d'Alzheimer.
#+title: The GDPR and genomic data
#+date: [2024-07-17 Wed 14:43]
#+filetags: :bib:facebook:
#+identifier: 20240717T144347
#+reference: mitchell2018gpdr
chap 08: un paragraphe résume la biblio (rien de neuf)
* Mitigation
Technique (developpé ailleur)
- k-anonymité : aucune entrée n'a une combinaison de quasi-identifier unique -> remis en cause par ERlich
- ajout bruit (differential privacy) -> Erlich: trop de bruit pour des GWAS ?
Au lieu de proposer de la donnée, on ne rend que des stats (ex: DataSHIELD)
- les données avec < 5 entrées ne sont pas envoyée directement
- risque résiduel mais mécanisme robust
GA4GH: modèle = Beacon
- limite K: permet de savoir si un individu est présent. Le problème est qu'ils sont liés à un maladie
Problème : trouver un consensus. 2 approches
1. l'attaquant a beaucoup d'information + compétence technique. Les auteurs considèrent qu'avoir un VCF n'est pas réaliste car non utilisé en clinique...
Sont assez poisitfs
"de-identifying data as far as possible, using advanced encryption and shifting to query-based systems rather than releasing data, should go a long way to ensuring that data remain reasonably unidentifiable . Combined with legal and environmental controls on data access and use (discussed below) it is highly likely that many uses of genomic data are capable of being sufficiently protected from re-identification that they fall outside the scope of the GPDR (for at least some of that processing).
Conclusion
"One is that although they are not inherently identifiable, genome sequences and sub-sets
of genomic data are potentially highly identifying. As discussed in this report, there is an active field of science assessing the identifiability of genomic data, and how its privacy can be preserved (chapter 8). However, this can be highly technical and it is not easy for those outside the field, including health care professionals, scientists, policymakers and regulators, to make an assessment of the identifiability of genomic data in context."
#+title: sideRETRO: a pipeline for identifying somatic and polymorphic insertions of processed pseudogenes or retrocopies
#+date: [2024-07-17 Wed 14:43]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T144330
#+reference: miller2021sideretro
Code C https://github.com/galantelab/sideRETRO
Seulement les "unfixed retropcopies" (somatically inserted ou polymorphiques)
Input: bam/sam/cram,génome de référence et transcriptome
* Algorithme
1. sélections paires mal alignée
- soit "discordants" = trop loins, soit sur des chormosomes distent
- soit "split read"
2. retient ceux qui sont dans une région exonique (gène parent) et son "mate" (potentiellement oint d'insertion)
3. groupe ces reads avec dbscan (clustering) pour trouver le gèn parnet + ponits d'insertion
Otuput: gène parent, point d'insertion, brin, génotype
* Données simulées
Sur 100 génomes humaines, ~31-45 rétroCNV par génoome avec error
N'identifie pas ceux dans régions très répétes mais 79/86 des intro, not. régions LINE9SINE
Testé sur 1000 genomes
- 5 individus avec génomes et exomes différents: 5 candidats -> 3 validés
- 20 dans génomes
- 6 exomes
- retrouve les 3 validés dans la litérature (1 manqué exomes)
- cohorte de 1000 individuts
#+title: Identification of individuals by trait prediction using whole-genome sequencing data
#+date: [2024-07-17 Wed 14:42]
#+filetags: :bib:facebook:
#+identifier: 20240717T144259
#+reference: lippert2017
Contexte: prédictions couleurs de la peau (4 publi), couleur des eyes (morphologie faciable)
Objectif :
- à partir de données de génomes
- préduction morphologie faciale, voix, âge biologie, taille, poids IMC, coleur eyes + pea, sexe
* Méthode
- Génome 30x 1 000 individus san diago (diversité)
- prédictio visage
- décomposition visage en élément principaux
- idem pour 1000 "éléments principaux génomiques" (donc éléments qui "définissent simplement" un individus en se basant la différence avec des SNPs common ? méthode non clair) avec sex, IMC e tage comme covariant
- prédiction voix
- vecteur 100 élements pour représenter enregistrer de la voix
- covariate : 1000 éléments princiaux généomique et sex
- âge basé sur la longeur des télomère, perte en mosia¨que du X
- taille, poids, IMC : utilisation de positions associées statistiquement (cf biblio) -> "régularisation stastitique" + ajout composant prinicap génomique + sex.
- eyes : 8 SNP
couleur peau : 11 gène
* Résultats
- visage : assez variable mais basé sur R^2CV par pixel (visage) et élément du vecteur -> semble assez bof
- voix = mauvais (et la métrique est discutable
- Taille moyen, mauvais pour poids IMC
- yeuax, coleur peau correct
** 1 individus parmi N avec un phénotype, comment le retrouver ?
tous les attributs, pool de 50 (= pire cas): 0.45 précision
** N génomes peuvent être apparaisé avec N phénotype ?
tous les attributs, pool de 50 (= pire cas): 0.53 précision
** 10 candidats parmis une cohorte de 100 88%
#+title: Detection of sharing by descent, long-range phasing and haplotype imputation
#+date: [2024-07-17 Wed 14:42]
#+filetags: :bib:facebook:
#+identifier: 20240717T144244
#+reference: kong2008detection
Pour les familles séquencées avec SNP-array haut dentisé, cet article montre qu'il est intéressant d'utiliser des individus assez éloginées (3-20) méoides
2 individus qui sont cousins au degré n: 2(n+1) méoides donc la probab de prartage un locus IBD est 2^{-2n}
Ici, on utiliser pour phaser les haplotype (il suffit d'avoir une région IBD)
Pour un SNP hétérozygote, il suffit de trouver un apparenté homozygote
données islandaise (35k) : un indivus partage avec 17-18 autre un IBD
Pas lu plus en détail
#+title: Actionable genotypes and their association with life span in Iceland
#+date: [2024-07-17 Wed 14:42]
#+filetags: :bib:facebook:
#+identifier: 20240717T144229
#+reference: jensson2023actionable
Suite après le refus d'inférer le génotype, l'entreprise a continuer à séqunecer plus de génomes et combiner à SNP-array.
#+title: Quantifying Interdependent Risks in Genomic Privacy
#+date: [2024-07-17 Wed 14:42]
#+filetags: :bib:facebook:
#+identifier: 20240717T144215
#+reference: humbert2017quantifying
Mise à jour de [cite:@humbert2013addressing] avec
1. utilisation des phénotypes
2. modèle mise à jour avec : >= 1 génome connu et on veut >=1 génome
* Résultats
Phénotype:
- testé sur un trio avec 2 SNPs d'APOE
- resultat intéressant : si les parents ont alzeimer mais pas le SNP, augment l'erreur car cela induit l'attaquant en erreur
- pour groupe ABO, on peut avoir 0 d'erreur...
#+title: De-anonymizing genomic databases using phenotypic traits
#+date: [2024-07-17 Wed 14:41]
#+filetags: :bib:facebook:
#+identifier: 20240717T144158
#+reference: humbert2015anonymizing
NB: article pas toujours bien écrit (on se demande plusieurs fois ce qu'ils font)
Principe : attaquant a une liste de SNP et une liste de phénotype de la cible
- génotype : 1000genome, opensnp, hack bdd
- phéontype : réseaux sociaux, hack bdd
Les AF de la population doivent être connus
2 types d'attaque
1. identification: à partir d'un phénotype d'une cible, identification du génotype par N génotypes
2. perfect matching: si on a les données génomique et phénotypique de n individus, on veut les faire correspondre
Une fois le génotype connu, évaluation de la susceptibilité à Alhzeimer (2 SNPs a priori)
2 modèles
1. non-supervisé : une correspondante phénotype -SNP est connue (SNPeida)
2. supervisé : idem mais stats sur totue la population (openSNP)
* Résultat
Données OpenSNP 2014 (génomic + phénotype)
80 participants
| Cible | Modèle 1 | Modèle 2 |
|-------+----------+----------|
| 1 | 5% | 13% |
| n | 8% | 16% |
Susceptibilité à Elzheimer: On a l'inaccuracy donc on fait la déduction
| Cible | Modèle 1 | Modèle 2 |
|-------+----------+----------|
| 1 | 84% | 95% |
Je ne retiens que les génotype à 80 : c'est le pire cas mais le plus réaliste
#+title: Addressing the concerns of the lacks family: quantification of kin genomic privacy
#+date: [2024-07-17 Wed 14:41]
#+filetags: :bib:facebook:
#+identifier: 20240717T144145
#+reference: humbert2013addressing
* Définitions
Linkage desequilibrium = corrélation entre paries de SNP -> on peut inféreur la position d'un SNP à partir d'autre
Belief propagation : calcule des distributions marginale de variables non observées vs opbséervé
- cette technique utilise un graph bipartite (une partie des noeuds = variables d'intéreête et l'autre les fonction , une arête correspond à un argument d'une fonction))
- permet d'avoir une bonne approximation (le calcul est exponentiel sinon)
* Objectif
Inférer des SNPs d'une cible dans une famille ciblée
L'attaquant connaît
- les SNP d' >= 1 apparente
- la généalogie (réseaux sociaux...)
- les lois mendelienne de tranmission des SNPs entre père, mère et fils
- les MAF des SNPs
- une matrice des linkage disequilibriam entre SNP
* Métrique
- correctness = Distance entre SNP estimé et vrai SNP
- incertitude = entropie des probabilite
*
* Résultat
** ADN partiel de 17 apparente CEPH UTA
On utilise 5 enfants sur les 11 (pour être dans la moyenne et cela n'augmente pas la force de l'inférence et peut limiter convergence)
80k SNP sur chromosome 1
erreur estimée :
- sans LD: 0.3 pour grand-père, 0.05 pour le père, 0.2 pour fils
Avec 50SNP
- avec LD amélioré: 0.2, 0.05, 0.05 resp
** Famille pour 6 personne (OpenSNP + facebook)
2 individus identivié, 11 et 9 apparentés retrouvés respectivement
Même emsure:
- chr1 Incertitude entre 0.65 et 0.55
- 50SNP: incertitude plus éleevé 0.73-0.58 environ
#+title: Inference Attacks and Controls on Genotypes and Phenotypes for Individual Genomic Data
#+date: [2024-07-17 Wed 14:41]
#+filetags: :bib:facebook:
#+identifier: 20240717T144112
#+reference: he2020inference
Même framework que[cite:@humbert2013addressing] & co
Attaquant a
- SNP
- phénotype
- matrice de corrélation SNP-phénotype
Prédiction phénotype + SNP
Méthode:
phénotype-SNP donné par GWAS
Données: Age-related macular degeneration dataset (90K SNP de 96 cas et 50 contrôles)
Résultats:
Ajout de 7 maladies-> erreur 0.45 et 0.5
#+title: Identifying Personal Genomes by Surname Inference
#+date: [2024-07-17 Wed 14:40]
#+filetags: :bib:facebook:
#+identifier: 20240717T144049
#+reference: gymrek2013
Identité de génomes en utilisant une inférence sur le nom de famille avec information publique
Source. ysearch.org (n'existe plus) et smgf.org (existe encore)
Avec des STR sur de chrX, on a les noms de famille, information géographique, génélaique.
~39k nom de fammile unique et 135k entrées en 2013, surtout US.
Test: 911 individus aux noms de famille connu, 34 marqeurs.
Algorithme pour inférer le nom de famille : ~12% succès
Avec date de naissance et État, médiane de 12 résultat
STR extrait de données illuminée avec lobSTR.
Test sur 21 génome d'home dans le 1000Genomes et en Utah -> mauvaise qualité sur Y, 10 génome sélectionné -> 5 identifiés
Utilisation des odnnées sur corielle, recherche internete, obituiaris, généalogiqe
~3-7h pour une personne
Identification des familles
* Conclusion
Identification de 5 individus par 10 génomes 1000projects CEU (37 marqueurs STR sur Y)
#+title: Privacy in pharmacogenetics: An $\$End-to-End$\$ case study of personalized warfarin dosing
#+date: [2024-07-17 Wed 14:40]
#+filetags: :bib:facebook:
#+identifier: 20240717T144036
#+reference: fredrikson2014privacy
Inversion de modèle : à partir d'un modèle prédisant le niveau de warfarine, peut-on retrouver des caractéristique des patient
Contexte: CYP2C9 et VKORC1 président 54% variabilabté dosage warfarine avec age et taille
Input:
- accès au modèle entraîné (boîte noire)
- dosage warfarine de la cible
- domaine de dosage
- accès aux proba (pas claires lequelles)
- et
- phénotype partiel de la cible (âge, ethnie, taille, poids de la cible)
- OU tout le phénotype
Output: prédire un SNP sur CYP2C9 et un SNP sur VKORC1
* Validation
entraîné et validé sur donnée IWPC (coupé en 2)
précission (= % d'échantilon bien prédit) et aire sosu la courbes (tient compte des distribution déséquilibrées)
résultat
VKORC1 précision ~18% et aurie sous la courbe ~26 (pire cas)
CYP2C9 0 et ~5 environ
*Attention* je n'ai pas vu de trace où ils regardaient le phénotype, on a juste le génotype
#+title: Identity inference of genomic data using long-range familial searches
#+date: [2024-07-17 Wed 14:40]
#+filetags: :bib:facebook:
#+identifier: 20240717T144021
#+reference: erlich2018
* Contexte
test génétique "direct-to-custom": ~700k sondes. Utiliseurs ont leur génotype brut en texte simple.
Sur différents site (GEDmatch), on peut uploader ce fichier. Notamment pour trouver les parents avec des segments "identity-by-descent"
- segment identique par rapport à un ancêtre commun sans recombinaison
Fonctionne m^ême pour 2e ou 3e cousins.
Utilisé pour des cold case (13 cas en 2018 !)
* Probabilité de trouver un apparenté
Base de 1.28 millions d'individus avec un de ces tests
- filtre : on garde les apparentés avec 2 segments > 6centimorgant (1centimorgan = 1% de chance de séparation après recombinaison pendant la méioise)
- filtre: on enlève segment > 700cm (suppression des parents proches)
Algo
1. proba que l'individu cible et celui de la base de données soient apparentés
2. probab que ces 2 individus partagent suffisament de segment IBD pour être détecté par l'algorithme d'appariement
3. probab de trouvée >= t individus apparisé dans une base de donnée de R personnes
Résultat:
- 60% des recherche ont des segments >= 100cM ~ 3e cousin (arrièore-arrière-grand père en commun) ou plus proche
Marche mieux que l'inréferenc du nom de famille sur l'Y
- 15% ont >= 300cM (2e cousin ou moins)
Méthode validé sur 30 recerche aléatoire dans GEDmatch: >_100cM dans 76% des cas pour les meilleurs résultats
Avec modèle simplifié, il suffit de couvrir 2% de la population avoir avoir un 2e cousin (mais correspond aux réslutat empiriques)
* Probabilité de trouver un individu après apparenté
Filtres
- < 160km de la position cible : exclu 57% candidats
- filtre sur l'âge cible +/- 5 ans : exclu 91%
- filtre sur le sexe cible : 16 à 17 individus -> ok pour manuel
* Test sur 1000 genomes
Parmis les CEU : sélection d'une femme (mari indentifié par inférence sur le nom) ->_génome extrait de 1000genomes, formaté pour ressemblé aux résultat de kit et uploadé GEDMATCHE.
2 aparents renolvyé probablement 6 à 7 degrées séparations. Relié par un coupe acenstrato -> 1h de travail pour l'identifié.
Puis recherche des descandant de ce couple qui sont dans le 1000genomes -> 1 jour de travail.
Identifiaciton cible
* Conclusion
À partir de 700k SNP, les sites styl GEDmatch permettent de retrouver un individu aux USA de descendance européen
#+title: Major flaws in “Identification of individuals by trait prediction using whole-genome sequencing data”
#+date: [2024-07-17 Wed 14:40]
#+filetags: :bib:facebook:
#+identifier: 20240717T144006
#+reference: erlich2017major
Réfutation de [cite:@lippert2017]
Avec age, sexe et ethenie, identification semblable
Limites:
- la ré-identification utilise surtout l'héritage et le sexe plutôt que des données
- ex: taille : la plupart de la taille est due à lau sexe
- âge est une bonne chose mais il faut séquencer 512 (!) fois un échantiollon pour le prédit
- non testé sur 1000genomes
#+title: Routes for breaching and protecting genetic privacy
#+date: [2024-07-17 Wed 14:39]
#+filetags: :bib:facebook:
#+identifier: 20240717T143951
#+reference: erlich2014
Stratégies : définition, concepts, performances et limitations
Méthode avec data mining + combinaison resources distinctets
* Identity tracing attack
= identifier un échantiollon d'ADN avec des /quasi-identifiers/ (infomation partielle contenue dans les données)
** Métadonnées
date de naissance, sexe et les 5 chiffres du code postal identifie de manière unique > 60% américains
Nombreuses base de données liants ces quasi-identifiants à des individus (vote, peoplefinder),
Exemples de généalique : même avec le nombre d'individus seulement, ~30 étaient uniques sure une ville de 60k habitants aux US...
Si on a l'âge et l'état de résience, avec les apparentés de 1er et second degrée, on diminue fortemente les possibilités
Une fois un individés identiifés, beaucoup plus facile.
Principale difficulté = recherche difficilbe (non dipsoible publement)
** Genealogic trianglutaion
Explotation de données généalogiques + gsénétique
chromosome Y et surname inférence : voir [cite:@Gitschier_2009] ,
[[id:6b6506f8-dd5a-4c44-bdad-8cb1030825fd][Inférence sur le nom de famille]]
** Phenotypic prediction
PRincipe = prédire le phénotype des données génétique -> sert à identifier
Limite: la génétique explique une petite portion de la variabilité phéhonytpique (ex: 10% de la taille)
Couleurs des eyes et âge possible mais seulement 3-4bits d'information.
Et difficile à chercher (pas de registre)
** Side-channel leaks
Données encodées par erreur, exemple du noms de famille dans le fichier de PGP...
Mais attentions aux fichiers dérivés de microsoft office
Le numéro d'identification doit être randomisé sinon on peut avoir des informations intéressantes (corrélation spatiale et temporelles qui aurait permis de prédire les numéro de sécurité sociale aux États-Unis, citation 58)
* Attribute disclosure avec ADN
Principe: à partir de l'ADN, on cherche des base de données génétiques avec données "sensibles" (ex: utilisation de drogues)
** n=1
si les données sont directement associées aux génotype, il suffit d'un petit nnombre de SNPs (45 bien choisis pour erreur de 10^15, 300 au hasard)
GWAS sont particulièrement exposé
** Données résumées
- exemple des fréquences alléliques = pour les variations très rares, une fréquence positive dans une étude augment la probablement que le sujet faisat parti de l'étude.
Avec des SNPs, on peut aussi le faire sur les GWAS. Étute
- note : exemple de GWAS pour schizophrénie avec un attaquant qui prend des ADNs au hasard dans les États-Unis: étude de petite taille -> puissance et spécficité intéressante. Si l'étude est tropi petit, il ne trouvera quasiement pas de participant. Les performences sont amélioriées si on filtre la population échantillionée par l'attaquant (ex: ethnie, géographie)
- on peut aussi les allèles assez rares co-uccurent sur des black d'haplotype différent (créant ansii un évèoenement rare) -> /linkage desequilibrium/
- en utilisant des GWAS qui se basent sur les même données, on peut raffiner le phénotype (intersection)
Impact probablement faible car il faut l'ADN de la victime
** Expression génique
Base de données https://www.ncbi.nlm.nih.gov/geo/
Méthode:
- trouver les "expression quantitative trait locus" (locus génétique qui explique la variation dans l'expression d'ARN)
- apprendre les distributions des profil d'expression par génotype
- ensuite, on scane la pase de données et pour chaque locas, on calcule la probablié d'un génotype
- enfin on match avec le génotype de la cible
Limite:
- efficacité maxmial sur même tissus,
- performance diminué ave
* Completion
Accès partiel à l'ADN mais exploitation de /linkage desequilibrium/ sur des marqueur pour reconstituer l'information
Exemple du locus APOE masqué mais dont on pourrait retrouvé l'information avec des marqueurs autours (citation 77, génome du Dr James Watson)
Possible sans accès direct à l'ADN de la cible ! (il faut généalogie + génétique)
- si données génétique d'1 apparent: on estime la prédispositon génétique des parents (ex: alzheimer) en utilisant une recherche facebook. Site utilisé opensnp.ong
- si données de plusieurs apparentées, il faut prendre un lien de parenté unique et identifier des segments en commun avec la cible. Ex: decode en Islande qui a trouvé des variants de 200k individus en plus !
* Mitigation
Non lu
#+title: Epigenome data release: a participant-centered approach to privacy protection
#+date: [2024-07-17 Wed 14:39]
#+filetags: :bib:facebook:
#+identifier: 20240717T143917
#+reference: dyke2015epigenome
Contexte: réidentification des participants par correspondance sur l'ADN = "attribute disclosure attacks using DNA"[cite:@erlich2014]
Ici: peut-on *ré-identifion donnée = attributer à un individu en faisant correspondre information génétique identifée à données anonymisée*
Anonymisation totale impossible pour ADN mais donnée épigénomique plus facible
* Données épigénétiques
Principe du whole genome bisulfite sequence = reporte CpG méthylé et non métholyé cytosine
** Informatino génétique dans données de méthylation
Principe : variant qui va perturber la méthylation -> différence entre les 2 brins
Identification de CpG génomique où la methélytaion est du à un variant génétique -> a priori 39k sites qui ont > 98% predictive accuracy et correspondent à un SNP connu
En pratique, on peut supprimer ces îlots perturbés par SNP sans perdre peaucoup d'information.
Limites (cf conclusion) mais on peut utiliser des masques
* Metadata
nomenclature HPO enlève certains détails trop spécifique lié au patient mais il faut parfois du texte libre
Pour maladies rare, date de naissance et endroit de résidence peut conduire à rédentification
Si syndrome cliniques, possible stigmatisation
#+begin_quote
1 Is the place of residence provided (even indirectly, for example, in the project name)?
2 Is the rare disease outwardly visible?
3 How rare is the disease?
4 Does the rare disease provide information about the likely geographical location of individuals?
5 Does the rare disease provide information about ethnicity that may be considered potentially stigmatizing?
6 Was the participant aware of the potential risks of data re-identification?
#+end_quote
* Conclusion
- [cite:@erlich2014] on peut retrouver l'identité d'un individé mais il faut dans la majorité des cas données génétique d'une autre source
- Cas spéciaux: exemple du chromosome Y [cite:@Gitschier_2009]
- RNA: complexe pour retrouver
#+title: An Inference Attack on Genomic Data Using Kinship, Complex Correlations, and Phenotype Information
#+date: [2024-07-17 Wed 14:39]
#+filetags: :bib:facebook:
#+identifier: 20240717T143901
#+reference: deznabi2018inference
Méthode très proche d'[cite:@humbert2013addressing]
Attaquer a accès à
- données génomiques partielle individus (publiques)
- phénotypes
- données de santé (publique)
- généalogique
* Objectif
retrouver les partie manquant du génome
* Méthode
Exploite généalogique, probab phénotype-génotyque, relaction maladies-génomique et corrélation génome avec modèle de recombinator
Utilise un algorithme de belief propagation
* Métrique
Idem [cite:@humbert2013addressing]
- incertitude (entropie sur SNP ) mais il faut les vrais positifs
- incorrectness
* Données
CEPPH/UTAH
- SNP au format VCF
- 11 individus ici
- 100 SNP proches, sur chr22
- MAF
- corrélation (1000 genomes projects)
Manuel corpas
* Résultats
CEPH
- 0.15 et 0.2 incertitude
- erreur 0.11 et 022
MC
- incertitude entre 0.1 - 0.3 selon indivift
- erreur 0.28 et 0.3
#+title: Overcoming challenges and dogmas to understand the functions of pseudogenes
#+date: [2024-07-17 Wed 14:38]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T143843
#+reference: cheetham2019
- pas d'info sur la partie pipeline
- attention à la définition d'un pseudogène (privilégie rétrotransposition et gène duplication ?)
- on découvre de plus en plus de fonction de pseudogène (intérête de l'article)
* Notes
Définition: régions semblable à un autre gène et défectueuse.
Classification par mécanisme
- "processed" : transcription inverse et intégration de l'ARNm
- "unprocessed" : à partir de [[id:c88ff729-d478-4e8d-82b9-bd6cc186b489][Duplication segmentaire]]
- unitary = inactivation d'un gène à partir de mutations
- (rare) mutation inactivatrice dans le génome de référence mais intact chez certains individus
GENCODE: ~10k pseudo gènes, soit 72%
Processed pseudogene = important dans l'évolution -> au mçoins 48 "processed" pseudogene polymorphique
#+title: Deterministic identification of specific individuals from GWAS results
#+date: [2024-07-17 Wed 14:38]
#+filetags: :bib:facebook:
#+identifier: 20240717T143830
#+reference: cai2015
Attribute disclosure
Hypothèse : l'étude a publique
- pour chaque génotype, la fréquence et la corrélaction avec maladie (p-value)
- une matrice corrélation génotype-génotype
* Méthode = inversion du processus d'aggrégation
1. matrice de co-occurence (nombre de fois que g1-g2 a été vu)
2. matrice de "preuve" -génotype (ensemble de sous-séquence des génotype = caractéritisque tu génome d'un individu)
3. pour le génotype da la cible, regarde s'il est dans cette matrice
* Résultats
** Données simulées
8 études de TWCCCC sur 394k loci. Le nombre de patient est entre 1400 et 2000 envirson par étude.
Simulation de 7 GWAS avec NBS comme contrôle
14 génotype sur 75 trouvent des motifs unique dans 1% des cas. N'identifie pas les cas de la population de référenc !
Nombre de cas ré-dentiifé augmente avec le nombre de génotypes
** données publiée
36 génotype disponible: 12 personnes
#+title: P-GRe: An efficient pipeline to maximised pseudogene prediction in plants/eucaryotes
#+date: [2024-07-17 Wed 14:38]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T143813
#+reference: cabanac2023p
Pipeline pour pseudogène mais sur les plantes
Le plus récent. Github: https://github.com/sebc31/P-GRe
Code non documenté marqué "WIP"
Input: génome et annotation GFF
Output: séquence génomique des pseudogène + pseudo-coding sequence
* Contexte
15% des pseudogène sont transcrit chez la souris
et peuvent modifier la régulation post-transcription (RNAi)
* Bibliographie
Logiciels existants se base sur l'homologie entre les séquence protéique connue et les séquences de pseudoègen
- alignement des séquences protéiner pour avoir une position apporximation des pesudoègen
- celle avec la plus haut similarité = encodé par le gène parènt (hypothèse : duplication de gènes fonctionner)
- alignemet plus fin entre les hit et les séquences parents
Ex : [cite:@zhang2006pseudopipe], zhou 2009 https://academic.oup.com/plphys/article/151/1/3/6108462
Plusieurs sont spécifiques à un organisme :
- prokaryote [cite:@syber2022pseudopipe] , psi-phi (lerat 2004)
- à partir de rétrotranspotion de transcrit [cite:@van2006ppfinder] ,[cite:@abrahamsson22ppsifinder]
Ceux qui travaille sur tous les organismes sont rares et produisent ldes résuiltants différent (protéine apporochée vs séquence pseudogene
Avantagase: pas besoin d'une base de protéine
* Méthode
1. Position approchée de pseudogène
- GFFRead pour générer le protéines depuis génome et GFF
- protéine alignée sur le génome (tblastn) : les alignements sont filtré + sélectionné
2. Prédiction de la structure des pseudogènes
1. frameshift: quand 2 alignement d'une protéine se recouvrent avec overlap non divisible par 3
les 2 peptides correspondant à l'overlap sont décomposé en "chimère" (on enlève un acide aminé à la fois) qui sont aligné sur la protéine code par le parent -> celle avec le meilleur alignement est retenue
2. pour gérer les quelques bp manquantes au début du pseudo-exon, les alignement sont étunde jusqu'à l'alignement suivant. (~ pseudo-introns). Correction de faux alignements
1. marqués par un processus dit pseudo-Lindley
- principe: score incrémenté tant que l'acide aminé est aligné, -1 sinon (min = 0, max = 10)
- permet de définir les introns
- les acides aminés encodé par le peusodogène qui s'aligne avec al protéine parente dans un intro sont flaggés comme mal aligné
2. Correction de ces acide aminé mal aligné avec le GFF
3. Recherche des sites d'épissages GT/AT cannonique à +/- 9bp au début et à la fin des introns pour raffiner
3. recontruction des extrémité N- et C-terminale
1. les positions codons start et stop sont connues avec l'alignement local
2. pour les codon start, on cherche donc un codon start (ATG) ou dégénéré (1 subsitution dans ATG). Si non trouvé à la position attendu, on se déplace vers le premier pseudo-codant exon
3. Idem poru codon stop mais vers la fin ddu pseudo-exon
4. Fusion des pseudogènes séparés de moins de 2.5kb et sans codon stop terminal (permet de reconstruire ceux avec des exons différents qui correspnodt à des protéines parentes proche, + pseudogone chimérique)
** Catégorisation
- copie complète du parent ou seulement fragment
- type : chimérique, dupliqué, rétro)
* Résultat
Méthod: A. thaliana
Sensibilité en considérant que le pseudogène est trouvé si >= 60% longueur overlap (même métrique que pour [cite:@zhang2006pseudopipe][cite:@ijms17121991] )
Qualité : alignement des pseudogene avec blastp sur protéome. Pour le meilleur alignement, la séquence protéique a été alignée "semi-globally" avec la séquence protéique du pseudogene (pairwise2) -> score d'alignement
84.3% (légèrement supérieur à [cite:@zhang2006pseudopipe] )
Meilleur qualité que ceux annotés apparement
#+title: Blueprint Genetics’ approach to pseudogenes and other duplicated genomic regions
#+date: [2024-07-17 Wed 14:38]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T143802
#+reference: blueprint2020
Important car
- duplications segmentaire peut être confondu avec régions "parente" en shortread
- aligmement compliqué (on peut perdre des reads)
- faux-positifs (variants du pseudogène aligné par erreur dans le gène parent)
- faux-négatif (variants du gène aligné par erreur dans le pseudogene)
- amorces Sanger difficiles à dconcevoir
>10k pseudègen (GENCODE). Liste sur ce site https://blueprintgenetics.com/pseudogene/
Homology 90-98% OK mais devient difficile> 9-%
Régions du génoèmes masquéee (not. duplication segmentaire)
Approche blueprint
- kit capture adapté
- pipeline maison
- seuls les reads avec qualité d' alignement >= 20 sont considéré
- confirmation en sanger
#+title: PΨFinder: a practical tool for the identification and visualization of novel pseudogenes in DNA sequencing data
#+date: [2024-07-17 mer. 13:50]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T135037
#+reference: abrahamsson2022ppsifinder
Classification :
- unitary = dévire d'un gène codant pour une protéine qui ne code plus pour une protéine suite à des mutations spontanées
- upnrocessed = duplication avec accumulation -> traduction impossible
- processed = rétrotranspotition et intégration d'aun ARNmessage)
- pas de promoteur 5'
- mais queue 3' polyA (attention certains n'en n'ont pas)
Scope
- seulement processed pseudogene
* Biblio
- approche basée sur homology (GWAS)
- non disponible ou utilisent des outils abandonnées
- pseudopipe [cite:@zhang2006pseudopipe]
- retrofinder [cite:@baertsch2008retrofinder]
- ppfinder [cite:@van2006ppfinder]
- [cite:@cooke2014processed] : somatique : aligne data sur génome et transcriptome mais non disponible
- sideretro [cite:@miller2021sideretro] avec génome et transcriptome de référence, détecte insertion processed pseudogene (de novo somatique + insertion polymher). Algorithme = clustering "density based
* Algorithm
1. Alignement avec STAR
2. Sélection des candidats : spliced reads sur des jonctions exons-exons
3. Sélection des sites d'insertion : on extrait
- les paires chimérique = un read sur la zone d'insertion et un read sur la zone codante. En pratique, on sélectionne les paires qui sont alignés sur des chromosomes différents ou à des distances plus grandes qu'attendu
[[file:~/org/papers/ppsifinder-spliced.png]]
- les reads chimérques = ceux qui sont à la jontion insertion-zone codante. En pratique, les reads soft-clippés qui sont alignés à 2 endroits différents
[[file:~/org/papers/ppsifinder-chimeric.png]]
3. L'intersection des 2 donne le résultat
* Validation
218 échantillons (sang)
panel 28 gènes de cancer
423 processed pseudogene détecté sur 209 échantillons (manque 9 ??)
moitié intronique, moité intergénique (1% dans un exon)
Note: détection des sites d'insertion n'a pas besoin d'avoir les paires *et* reads chimériques mais les 2 augmente la fiabilité
Sélection de ceux avec les 2 inseréré dans exon ou intronique -> CBX3 et SMAD (pseudogene) -> validé en sanger
** CBX3
chimèrique avec C15ORF57 en RNASeq sur lymphoblaste (+ autres tissus)
Ici, étude des breakpoint prédits de ces 2 génes
Résultat: insertion unique et duplication sur l'un des points de cassure mais rien sur autre
Inséré de manière inversé dans la même orinetation qu C15ORF57 -> gène de fusion possible
** SMAD45
Impac clinique car perturbe diag (cancer pancrétaique notamment)
Sur 1 point de cassure : délétion 3bp
sur l'autre : queue polA et dup de 4bp
** Étude de la profondeur
Downsampling sur les 4 échantillons validé en sanger -> il faut >= 144X
** Performances
Sur données simulées avec wgsim
* Performances (github)
Sur le panel ci-dessus, couverture de 500x : ~50min pour le script sans alignement, 2G
* Code
https://github.com/SannaAb/Pseudogenes
Dépendences : python, (STAR), Bedtools, R ( pour les plots), samtools
Note: peut travailler sur le BAM directement d'après la doc donc on peut se passer de l'aligement
#+title: Inferential Genotyping of Y Chromosomes in Latter-Day Saints Founders and Comparison to Utah Samples in the HapMap Project
#+date: [2024-07-17 mer. 13:50]
#+filetags: :bib:facebook:
#+identifier: 20240717T135015
#+reference: Gitschier_2009
données:
- données génétiques des échantillons CEU = habitant d'Utha avec ancentre Europe nord et ouest (180) -> donées chromosome Y
- familyseach (généalogy)
- SMGF (génetoype+ généalogique
méthode: détermination de l'haplotype du fondateur (Joseph Smith) en cherchant tous les chromosomes Y (recherche des allèles "à la main"))
Pas de descendant direct sur SMGF mais de ses frètes et cousins
20/30 haplotype de ChrY correspondent exactementy a >= 1 indivivu SMGF
- dont 3 ancêtre en dehors US
- 17 ont >= matched ancêtre famille fondatrice
40 marker STR -> a priori 17 semble suffir
* Conclusion
30 STR sur chrX pour détecter noms de famille potentier mais pas d'identification à la personne près
#+title: Retrocopy contributions to the evolution of the human genome
#+date: [2024-07-17 mer. 13:48]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T134813
#+reference: baertsch2008retrofinder
Code récemment uploadé sur github https://github.com/ComparativeGenomicsToolkit/RetroFinder
Parmis les rétrocopies (ARN messagé épissé dans le génome), étude des rétrogènes (=rétrocopies fonctionnelles)
Méthode :
- Alignement de tous les ARN messager sur le génome humain
- score pour la probabilité d'une rétrotransposition récente (nombre d'introns, l'absenc de site d'épissage conservé...)
- comparaison avec Vega pour le score
- filtre >= 5 ESTs et 1 ARNm ou 1 gène dans refseq ou UCSC
Types d'évènement
1. acquisition d'un exon (inclus dans un transcrit existant)
2. duplication d'un gène (nécessite le recrutement de région régulatrice)
3. nouveaux gènes : contribution d'une séquence en dehors du cadre de lecture (UTR, sens oppés)
4. 12k candidats pour gènes dérivés rétropcopies dont 726
#+title: Automatic annotation of eukaryotic genes, pseudogenes and promoters
#+date: [2024-07-16 mar. 17:17]
#+filetags: :pseudègene:psf:bib:
#+identifier: 20240716T171712
#+reference: solovyev2006automatic
Code source : non disponible ? on a une version linux mais en essai et sans PSF ? https://www.molquest.com/molquest.phtml?topic=downloads
Workshop de prédiction de gène organisé par Encode
- pipeline Fgenesh++ = identifie 91 nucléotide codant (spécificité 90%)
- PSF = programme de Softberry pour trouver pseudogène : trouve 90% des pseudogène annoté manuellement
- test : référence de 145 pseudègen HAVANA -> 81% retrouvé
Algorithme
1. détection de gène (ici Fgenesh++) : pour un ensemble de séquence protéine, on sélectionne les meilleurs résultats par protéine mappé -> pargen
2. candidats: pour chaque protéine
1. alignement > seuil
2. portion siginficative de la séquence poroténie
3. alignement différent du gène parent
4. au moins un évènement parmi :
- atteinte ORF (>= frameshit ou codon stop)
- un seul exon avec site poly-A (site poly-A trop proche d'une extrémité 3' d'un alignement mais l'extrémité de la séquence protéique est alignée sur le dernier acide aminé et un exon couvre 95% séquence protéique)
- perte d'introns (couverture après alignement >= 95% et moins d'exons que dans le parent)
- séquence protéique non conservée (ratio remplacement non-synonyme/synomique > 0.5 (par rappor taux parent, calculé selon un article)
#+title: PseudoPipe: an automated pseudogene identification pipeline
#+date: [2024-07-16 mar. 17:08]
#+filetags: :article:bib:
#+identifier: 20240716T170853
#+reference: zhang2006pseudopipe
Code http://pseudogene.org/DOWNLOADS/pipeline_codes/ppipe.tar.gz
Algorithme
- input: génome (sans région répétée), ensemble des séquences protéiques et coordonnées des gènes fonctionnels
- output: annotation des pseudogène
1. identification des régions similaire avec une protéine (BLAST)
1. suppression des overlap >= 30bp avec gènes fonctionnels
2. suppression des doublons (segment avec plusieurs résultat du BLAST)
1. Si mêm protéine, cela est du au fait que BLAST casse des longues séquences homologues en fragments courts
2. sinon, cela est du à des protéines/domaine protéique homologues
Partionnement en résultats disjoints. Parmi ceux-ci , on supprime ceux qui sont complètement contenu
3. Dans un ensemble disjoint, on fusionne les différents résultats BLAST.
Puis, parmi les ensembles adjacent qui correspondent à la même protéine, ils appartiennent au même pseudogène en fonction de la distance entre les résultats et la distance à la protéine
Les trous entre les hits peuvent venir
1. de zones non considérées par BLAST (faible complexité ou détériorée)
2. petit ADN inséré
3. séquence intronique dans les pseudogene dupliqué
4. éléments répété
4. Paternité des pseudogènes : déterminée parmi les protéines paralogues en se basant sur
1. similarité des séquence "
2. meilleur e-value
3. longueur de la protéine (cela suppose que le pseudogene est plus proche du gène parent original)
Note: alignement amélioré avec tfasty en considérant la zone d'un pseudo-exon + 3*bp
Python
#+title: Evolutionary and expression signatures of pseudogenes in Arabidopsis and rice
#+date: [2024-07-16 mar. 17:08]
#+filetags: :article:bib:
#+identifier: 20240716T170819
#+reference: zou2009evolutionary
Idem [[denote:20240716T170853][PseudoPipe: an automated pseudogene identification pipeline]] sur principe
[[https://github.com/ShiuLab/PseudogenePipeline][Code sur github]]
Riz et plante (arabidopsis)
Méthode d'identification : basé sur [cite:@zhang2006pseudopipe]
1. identification région intergénique similaire à des protéines connues
2. régions répétées masqué
3. pseudoexons fusionnées en contigs
4. fitre sur qualité
5. identification des caractérisitque coupant les séqunece proétique
6. différence ci rétro- et non-rétro
et stats
#+title: Pseudogenes and Their Genome-Wide Prediction in Plants
#+date: [2024-07-16 mar. 16:58]
#+filetags: :article:bib:
#+identifier: 20240716T165859
#+reference: ijms17121991
2016. Comparaison de 3 pipeline ici: pseudopipelie shiu et PSF
* Contexte
Image avec 3 catégories
- processed (ou retro): transcrit ARNm puis transcription inverse et intégré dans le génome
- duplicated : duplicaiton d'un gène fonctionne + acquisition mutation délétère avec au final perte capacité à code une protéine
- unitary (gène accumule mutations) : perte de fonction mais sans duplication
Il faut y ajouter les pseudègen fonctionnels
| Processed | Duplicated |
|-------------------------------------------------+---------------------------------------------------------|
| Pas d'intron ni promoteur | Promoteur, exon-intron, structures régulatrices en amon |
| queue polyA en 3' | pas de queue polyA en 3' |
| "direct repeats" adjacente site d'insertion | non |
| emplacement différent du parent le plus souvent | parfois avec parent |
| tronqué en 3' ou 5' | Tronqué 3' |
| Souvent plus court | Sovuent plus long |
Humain: 82% des pseudogène du chromosome 22 sont rétrotransposition , plus rare plante (23% pseudogène riz))
Utile pour étude évolution
** Prédiction
"Non-fonctionnalité" est difficile à valider et ne fonctionne pas pour tous les gènes.
Approche prédominante basée sur
1. l'homologie entre un pseudogène et un vrai gène (parent/fonctionnel)
2. mutation déléteère
3. défaut intros
Difficulté d'obtenir un ensemble de gènes parents
- utilisation de protéines fonctionnels, par ex. à partir d'ENSEMBL
- annotation de "qualité" à partir de logiciels (mais peusdo-gene possible). Les auteurs conseillent FGENESH [cite:@solovyev2006automatic]
- pour enlever les pseuodgène
- utilisation de transcripts (majorité ne le sont pas) avec annotation ARNm
- riz : seul les gènes "de confiance"
-
* Bibliographie
NB: erreur de ref pour retrofinder
- ppfinder [cite:@van2006ppfinder] : ADN codange pour déterminer les gènes parents puis utilisation des parents pour décteurs les locus sans intros
- pseudofinder [cite:@zheng2007pseudogenes] (ne pas confondre avec [cite:@syber2022pseudopipe] ) homologue de gène fonctionnels : classification par analyse BLASTz -> non dispo en ligne ?
- rétrofinder [cite:@Baertsch_2008] : alignement ARNm (Genbank) sur génome (BLASTz), détection de caractéristiques biologisue, pondération heuristique
- GIS-PET: pas un pipeline (et pas de BLAT dans l'article ?)
- pseudopipe [cite:@zhang2006pseudopipe] : à partir de la séquence protéique, on trouve les pseudogène dans les régions intergénique marqué par des repeat. Puis éralignement pour valider
- pipeline de shiu (sic) [cite:@zou2009evolutionary]: idem pseudopipe
- PSF [cite:@solovyev2006automatic] idem pseudopipe
* Algorithme (en général)
1. Détermination d'un ensemble de gène parent: les auteurs ne dient pas comment eux on fait...
2. Dans le génome, on masque les régions répétées et gènes
3. tBLASTn (filtre read redondants) -> candidats dans régions intergénique en se basant sur homologie
4. alignement des candidats sur parents
5. vérification intron, queue polA
* Comparaison des pipeline
- Arabidospi thaliana
- 4108, 3531 and 801 pseudogenes were predicted by PseudoPipe, Shiu’s pipeline and PSF
- validé si > 60% pseudogène connu (924 sont connu sur cette plante))
- per f: 81.3%, 78.9 et 6.0% resp -> améliori si on suppriment UPG
#+title: The risk of re-identification versus the need to identify individuals in rare disease research
#+date: [2024-07-16 mar. 16:21]
#+filetags: :bib:
#+identifier: 20240716T162106
#+reference: hansson2016risk
Faux espoir pour le côté technique mais utile pour introduire.
À lire
:PROPERTIES:
:ID: 6233cf22-da18-4361-ae02-c5e441bcfb06
:END:
#+title: Auragen
Contexte :[[id:064ea7ee-a329-4180-be94-c2abb7970460][Plan France Médecine Génomique 2025]]
[[id:3cdf446e-e913-41c9-8dd7-0ec53bfa5104][Laboratoire Auragen]]
Séquencage: 30-55x
Pipeline :
- [[https://auragen.atlassian.net/wiki/spaces/~7120201ca2598be5ef4936a1110033f28f4fed/overview][Vue d'ensemble du pipeline]]
- Démultiplexage: bcl2fastq. 1 fastq = 100Go
- alignement : régions PAR masqué -> vont s'aligner sur le X
- [[id:ee261ae7-3511-46e0-8c9a-ad4318850104][Appel de variant]]
- [[id:30db1b6c-6f95-40db-a363-202b20412d4f][Outils pour la détection de variants]]
- [[id:587dc7c4-1dd5-4068-8d24-6e3825f01e66][Validation]]
- [[id:d82ebf38-feca-4409-950f-b208f67fae0d][Priorisation]]
- [[id:fb97e927-2a25-4733-95a2-c4f520c3c711][Sélection des variants]]
- [[id:63bd7afa-411c-4b17-ba37-3fd63d34bda6][Visualisation]]
- [[id:29312046-b620-4407-bfc2-9777cea8b66d][Rapport]]
-[[id:117f7970-2579-48e1-b7b0-026b4c9fd0a6][Avertissement]]
[[id:c2c6328b-1292-454d-81b4-e97ba85b4572][Interprétation]]
[[id:75d57396-9391-4841-bd36-77c35beb33b1][Base de données Couchdb]]
Suivi
- [[id:82df331a-bf10-4099-aa1b-24b4dd637a74][Mises à jour]]
- [[id:cc54e449-12a7-41d6-832b-33937255be92][Contrôle qualité]]
- [[id:247f9296-5b37-4060-ab66-6835b9b201f9][Cohorte]]
[[id:cef32d57-e0a3-4b76-afd2-326830576462][Problèmes connus]]
[[id:280a19e2-c571-41dd-b339-5fe9723cefbe][Notations]]
[[id:8a2278b0-14de-4b46-8770-5f1f9015032f][Améliorations pipeline]]
:PROPERTIES:
:ID: ee261ae7-3511-46e0-8c9a-ad4318850104
:END:
#+title: Appel de variant
- SNV et petits indel <= 50bp : haplotypecaller
- taille des indel : haplotypecaller semble monter jusque 108bp ?
- +genotypevcf = appel par groupe après hapolytpecaller
- [[id:7c2aae7d-c1a3-4ff5-91f4-14888c6fd590][Délétion et duplications 50bp - 21kb]]
- [[id:6ee24af9-f9fd-4046-8c3a-3b0d077123b3][Gains et pertes > 21kb]]
- [[id:325fe1c2-98c7-4636-8d9f-72135a566bc7][Variants structurels]]
- STR :[[id:e4568e0f-e9e1-4432-9b56-c2cece9d9d11][Expansionhunter]]
[[id:2228958a-bcde-4256-819d-00237877e5e5][Limite appels de variants]]
:PROPERTIES:
:ID: 0b163c10-63c2-44e0-b694-f3749139a3d5
:END:
#+title: Annotations
VEP
- toutes annotation
- ciblées dans rapport de synthèse: impact, mendélien, clinique, structural
Soumis à empreinte sont taggé
$x^2$
* Intronique profond
SpliceAI
- pluginVEP
- score 0.2 (consensus interne, < 0.5 seuil dans biblio)
- spécifique $\ge 98$ mais peu sensible (46.9 tcoute variant)
- (proablement) patho et bénin
-> on enlève les stop, frameshift, inframe, dééltion
CADD :
- entrainé à partir de variant délétère et comparaison interespèce.
- annotatino : conservation, épigénétique, fonctionne, contexte (GC, CpG...) Priorisation (SNV et indel < 50)
- CADD v1.6 > 25 ou spliceai >= 0.2
* Mises à jour
- OMIM = annuelle
- clinvar = 6 mois
#+title: Pipeline
#+date: [2024-07-24 Wed 09:54]
#+filetags: :auragene:meta:pipeline:
#+identifier: 20240724T095437
[[https://auragen.atlassian.net/wiki/spaces/~7120201ca2598be5ef4936a1110033f28f4fed/pages/1532198915/Vue+d+ensemble+du+pipeline][Image]]
Description:
- [[id:cc54e449-12a7-41d6-832b-33937255be92][Contrôle qualité]] et [[id:117f7970-2579-48e1-b7b0-026b4c9fd0a6][Avertissement]]
- [[id:ee261ae7-3511-46e0-8c9a-ad4318850104][Appel de variant]]
- Cas particuliers : [[id:30db1b6c-6f95-40db-a363-202b20412d4f][Outils pour la détection de variants]] , [[id:92f64d28-a582-484b-8181-ea04c13d850d][ROH]]
- [[id:0b163c10-63c2-44e0-b694-f3749139a3d5][Annotations]]
- [[id:fb97e927-2a25-4733-95a2-c4f520c3c711][Sélection des variants]]
- [[id:d82ebf38-feca-4409-950f-b208f67fae0d][Priorisation]]
- [[id:6698b607-38bb-47de-a729-e2e5ad69b94f][Reportmonster]]
- [[id:4b189666-2c75-4a9b-b95a-00343cb223d0][Aurapport]]
[[id:280a19e2-c571-41dd-b339-5fe9723cefbe][Notations]]
Technique
- [[id:82df331a-bf10-4099-aa1b-24b4dd637a74][Mises à jour]]
- [[id:587dc7c4-1dd5-4068-8d24-6e3825f01e66][Validation]]
Limites et améliorations
[[id:cef32d57-e0a3-4b76-afd2-326830576462][Problèmes connus]]
[[id:8a2278b0-14de-4b46-8770-5f1f9015032f][Améliorations pipeline]]
#+title: Reportmonster
#+date: [2024-07-24 Wed 09:52]
#+filetags: :auragene:pipeline:
#+identifier: 20240724T095258
Fonctions
1. générer aurapport (très souvent modifié)
2. envoyer Hygen (~stable)
#+title: Éléments mobiles
#+date: [2024-07-23 Tue 16:27]
#+filetags: :interprétation:
#+identifier: 20240723T162735
Principe : séquences très homologue donc l’alignement ne se fait pas au bon endroit
TODO: bien comprendre
- Samplot: pic initial, puis baisse couverture puis pic
- UCSC: track repeatmasker
#+title: IGV
#+date: [2024-07-23 Tue 11:38]
#+filetags: :interprétation:
#+identifier: 20240723T113800
* Translocation
- read avec softclip
- alignement sur un aute chromosome (couleur)
- vérifier qu'il n'y a pas eu de perte de matériel avec BLAT : on doit retrouver les régions correspondant au point de cassure
- vériifer absence d'inversion dans BLAT: un read doit être aligné dans le même sens sur les différents chromosomes (+ sur chX et + sur ch10 par exemple)
* Astuces
- voir reads de mauvaise qualité : "tag" -> "MQ0" et mettre softclip
- (spécifique auragene) : pour basculer en mode CNV, "igv-mr.hmtl" -> "igv-mr-cnv.html"
#+title: Génomes péruviens
#+date: [2024-07-22 Mon 17:19]
#+filetags: :projet:
#+identifier: 20240722T171906
Contexte: utiliser des génomes de cas et de témoins pour trouver des facteurs de risque de mal chronique des montagnes
Biblio déjà faite par étudiant en M1
Données déjà disponibles (CNV, mito, SNV)
#+title: Privacy challenges and research opportunities for genomic data sharing
#+date: [2024-07-22 Mon 11:01]
#+filetags: :bib:facebook:
#+identifier: 20240722T110145
#+reference: bonomi2020privacy
Survolé, pas de nouveauté scientifique
Quelques figures et tableau utiles
#+title: Patterns and rates of exonic de novo mutations in autism spectrum disorders
#+date: [2024-07-22 Mon 10:41]
#+filetags: :bib:facebook:
#+identifier: 20240722T104147
#+reference: neale2012patterns
Ce qui nous intéresse : modèle statistique pour taux de mutation pour tous les trinucléotide dans les régions capturée par exome
La "mutabilité" est estimé en comparaison avec singe (chimpanzé + babouins) et 1000 genomes projects
Le taux de mutation de l'exome entier est la somme du taux de mutation par base
Méthode : 175 exome en trio
Pour calculer le taux de mutation, estimation avec le modèle statistique si dessus
NB: les variant semblent avoir été confirmés en Sanger
#+title: Statistical methods for assessing the effects of de novo variants on birth defects
#+date: [2024-07-22 Mon 10:05]
#+filetags: :bib:facebook:
#+identifier: 20240722T100549
#+reference: xie2024statistical
Analyse de variant /de novo/
1. pipeline classique sur données exomes/génome (alignement + appel de variant *en trio*, puis annotation et filtre). Enfin classification en perte de fonction, damaging missens et autre (ex: annovar)
2. calcul du taux de mutation
- [cite:@neale2012patterns] semble utile. Comparaison des trinucléotide / singes et 1000 genomes
- [cite:@samocha2014framework] amélioration du modèle précédent
#+title: A framework for the interpretation of de novo mutation in human disease
#+date: [2024-07-22 Mon 10:01]
#+filetags: :bib:facebook:
#+identifier: 20240722T100100
#+reference: samocha2014framework
Modèle statistique pour mutation de novo par gène (amélioration de[cite:@neale2012patterns] ) en exome.
Utilisation pour déterminer les gènes avec pression de sélection (moins de variant qu'attendu)
#+title: A Systematic Survey of Loss-of-Function Variants in Human Protein-Coding Genes
#+date: [2024-07-19 Fri 17:26]
#+filetags: :bib:facebook:
#+identifier: 20240719T172613
#+reference: macarthur2012systematic
Méthode: 185 genomes (100 genomes)
~ 2900 variant LOF candidats
Après filtre ~ 1 200
NA1288: en moyenne 97 variant LOF dont 18 homozygotes
#+title: How many rare diseases are there?
#+date: [2024-07-19 Fri 17:24]
#+filetags: :bib:facebook:
#+identifier: 20240719T172413
#+reference: haendel2019how
Méthode: compter entités dans Monarch...
#+title: Estimating the number of diseases – the concept of rare, ultra-rare, and hyper-rare
#+date: [2024-07-19 Fri 16:47]
#+filetags: :bib:facebook:
#+identifier: 20240719T164742
#+reference: smith2022estimating
Concept de maladie ultra-rare < 1/108
Quelques info intéressantes pour notre projet (survolé le reste)
- importance de la taille du gène : plus il est petit, moins il y a de chance d'avoir un variation (ex: MIR140 = miRs)
- polygénisme
- soit vrai variants causals -> problème de la consanguinité
- et les variants s'influencent entre eux
- soit polymorphismes (difficile)
- Figure 3 >= gènes impliqué avec fréquence et nombre de malaidie estimées
- hypothèse : pas de consanguinité
- ajustement pour la non-interférence des phénotype entre-eux (donc pas de nouveau phénotype résultat de la combinaison des 2): on suppose que seul 1/3 sont concernén ()
- calcul théorique du nombre de maladies
- estimation ~100 variant LOF dans le génome humain en moyenne [cite:@macarthur2012systematic]
- ~20 gènes complètement inactivé
- de nombreux variant ne causent pas de maladie (mme source)
- 10k estimé par[cite:@haendel2019how]
- si on considère que des SNV de la moitié des gènes causes des maladies, en théorie 12 000 ! (factorielle) possibilités TODO pourquoi 12 000 ?
- moins si on considère des morts foetales
- plus si on considère les facteurs exogènes
- NB: les gains de fonctions ont le potentiel de faire plus de phénotype que LOF
#+title: Epidemiology of Rare Disease
#+date: [2024-07-19 Fri 15:10]
#+filetags: :bib:facebook:
#+identifier: 20240719T151048
#+reference: orphadata2024epidemio
Doc https://www.orphadata.com/docs/OrphadataFreeAccessProductsDescription.pdf
XML
- PrevalenceList count: total number of epidemiological data for a given clinical entity
- PrevalenceType: can be “Point prevalence”, “birth prevalence”, “lifelong prevalence”,
“incidence”, “cases/families”
- PrevalenceQualification: can be either “Value and Class”, “Only class”, “Case” or
“Family”
- PrevalenceClass: estimated prevalence of a given clinical entity. There are eight possible
values:
o >1 / 1,000,
o 1-5 / 10,000,o 6-9 / 10,000,
o 1-9 / 100,000,
o 1-9 / 1,000,000
o or <1 /1,000,000,
o Not yet documented,
o Unknown
- ValMoy: Mean value of a given prevalence type. By default, the mean value is 0.0 when
only a class is documented
- PrevalenceGeographic: Geographic area of a given prevalence type
#+title: The HPO - ORDO ontological module
#+date: [2024-07-19 Fri 14:25]
#+filetags: :bib:facebook:
#+identifier: 20240719T142527
#+reference: hoomm2024ordo
Doc: https://www.orphadata.com/docs/WhatIsHOOM.pdf
- FrequencyAssociation = Estimated frequency interval of a phenotypic abnormality in the patient population.
#+title: Natural History of Rare Diseases
#+date: [2024-07-19 Fri 14:20]
#+filetags: :bib:facebook:
#+identifier: 20240719T142046
#+reference: orphadata2024natural
- AverageAgeOfOnset : 10 groupes = Antenatal, Neonatal, Infancy, Childhood, Adolescence, Adult, Elderly, All ages and No data
- TypeOfInheritance : 13 valeurs
- Autosomal dominant,
- Autosomal recessive,
- X- linked dominant,
- X-linked recessive,
- Chromosomal,
- Mitochondrial inheritance,
- Multigenic/multifactorial,
- Oligogenic,
- Semi-dominant,
- Y-linked,
- No data available,
- Not applicable,
- Not yet documented
#+title: Phenotypes Associated with Rare Disorders
#+date: [2024-07-19 Fri 14:09]
#+filetags: :bib:facebook:
#+identifier: 20240719T140926
#+reference: orphadata2024phenotype
XML:
- HPOFrequency: fréquence estimée pour un phénotype dans un contexte clinique donné. 5 groupes (lequels) de fréquence
- always present: 100 %
- very frequent: 99%-80%
- frequent: 79%-30%
- occasional: 29%-5%
- rare: 4%-1%
- excluded : 0%
- DiagnosticCriteria: pathognomonic ou critère diagnostic
#+title: Qualité des librairies
#+date: [2024-07-19 Fri 11:38]
#+filetags: :qualité:
#+identifier: 20240719T113852
- Fraction génome couvert : reséquencer si "chute" (<98% de la cible diagnostique 20x)
- "Atypique" si profile de distribution profondeur de séquencage s'écarte de la loi normale -> reséquencer
#+title: Identito-vigilance
#+date: [2024-07-19 Fri 11:38]
#+filetags: :qualité:
#+identifier: 20240719T113813
Tests
- Genre :
- post-extraction (web lat) 58 polymorphismes dont 2 sur chrY
- post-séquencage (dry lab) : profondeur chrY/ profondeur chrX
- [[denote:20240719T113454][Contamination]]
- Similarité entre les patients d'un runs :
- 1000 SNPs sur les 22 chromosomes
- les cas les plus proches doivent être dans la même famille
- 2 représentations : matrice de corrélation, dendogramme
Conséquences
- problème d'identitovigilance : non rendu
- contamination sans impact : notifié mais rendu
#+title: Contamination
#+date: [2024-07-19 Fri 11:34]
#+filetags: :pipeline:
#+identifier: 20240719T113454
Principe: recherche de > 2 allèles
- sur 2589 positions
- positions polymorphes avec >= 3 allèles en population générale
- 10-90% pour chaque allèle
- test de fisher + calcul taux contaminant
* Conséquence
- SNV:
- 5-10% impact possible (zone grise) -> rendu si apparenté, *non rendu si cas index*
- > 10% impact -> *non rendu*
- CNV : pas d'impact car on utilise la profondeur de couverture
Causes: ADN extrait ailleur, ADN extrait tissu foetal, anomalie
préparation librairie
Rendu malgré tout
- si dossier urgent avec librairie atypique/défaut de couverture
- CNVs longs/ploïdie seuls non interprétatble -> rendu sans CNVs
- apparenté avec librairie atypique/défaut de couverture sans impact SNV petits indel et del/dup 50bp-21kb selon critères dans kalilab
#+title: Controle qualité
#+date: [2024-07-19 Fri 11:33]
#+filetags: :pipeline:
#+identifier: 20240719T113354
- [[id:67a7ed39-62f6-4853-beeb-a4f1449b394e][Identito-vigilance]]
- Couverture
- type : gène, codant (CDS), clinvar patho/likely patho
- clinvar patho: liste de ceux mal couverts : comparé à la cohorte pour savoir si défaut récurrent
- en ligne http://172.25.219.90:8080/help/mroc/qcfiliere pour 256 patients asympto
- pour les gènes, il faut connaître l'indication
- visualisation sur tout le gène (seqcover)
- [[denote:20240719T113852][Qualité des librairies]]
FastQ :
- nombre lignes/taille fichiers
- paires concordantes
- qualité paires de base
En pratique,
- 98% cible diag primaire (= gène)
- 99% variants clinvar patho 20x
#+title: Délétion et duplications 50bp - 21kb
#+date: [2024-07-19 Fri 11:32]
#+filetags: :pipeline:manta:cnv
#+identifier: 20240719T113251
Manta :
- approche "split reads" = lectures chevauchantes (alors que CNVnator utilise des rupture de profondeur[[id:6ee24af9-f9fd-4046-8c3a-3b0d077123b3][Gains et pertes > 21kb]] )
- critères
- au moins 1 lecture chevauchant la variation
- appel de qualité (> 500 avec une échelle en 0 et 999) + filtre PASS
- nombre de copies < 0.75 et > 1.25 (mais <= 6)
- non récurrente (<1% population et cohorte)
- absent des apparenté à l'état homozygote
#+title: Avertissement
#+date: [2024-07-19 Fri 11:31]
#+filetags: :aurapport:
#+identifier: 20240719T113108
Dossier livré si QC "modérément atypique"
- distribution atypique des profondeur
- couverture faible mais "modéré" (détail du défaut de couverture dans les QC)
- QC non conforme mais urgent
- librairie modérément atypique (les faux positifs de CNVnator sont nettoyés)
- absence de parent: les[[denote:20240719T113251][Délétion et duplications 50bp - 21kb]] sont impactées car manta génère trop de variant -> on filtre les variation introniques et intergéniques
- contamination < 10%
- aneuploïdie du cas index
- aneuploïdie des apparentés
- faux positifs de CNVnator (par comparaison avec ploïdies)
- librairie non conforme attendu
- prélèvement non exploitable: greffe moelle osseuse par exemple
- présence de jumeaux monozygotes
Voir [[denote:20240719T113354][Controle qualité]] et not. [[denote:20240719T113454][Contamination]]
#+title: Aurapport
#+date: [2024-07-19 Fri 11:30]
#+filetags:
#+identifier: 20240719T113027
[[denote:20240719T113108][Avertissement]]
- CQ non conformes
- jumeaux monozygutes
"i" -> "matériel et méthodes"
"+CN"
Pour chaque gène
- classement par rapport à un gène HPO (hpo64 = 64e
"meilleur gène" pour les termes HPO)
- +/- expert = important pour
préindication
- > *on voit tous les gènes qq soit l'indication*
Pour un variant : nouvelle fenêtre
- signale autre variantion ("+CNV") par
exemple
- résultat sur un transcrit donné
- > possible de change dans
"sélection du transcrit" et les annotations sont modifées en conséquent
[[id:b71b2e16-0970-4272-ac54-74ca4588487d][Rendre un variant]]
#+title: Améliorations pipeline
#+date: [2024-07-19 Fri 11:29]
#+filetags:
#+identifier: 20240719T112953
- Mitochondrial: non fait
- Mosaïque : dépend de la VAF
- Signaler anomalies "SNP-array"like ? Présentation de quelques cas à [[https://docs.google.com/presentation/d/1ZPEYJ0VTpf4CWRdnWCA_YgrIa8FZoUTPQkRMFEzrDhc/edit#slide=id.g2dc6baf89a2_0_2042][Bioinfodiag mai 2024]]
- Auraweb -> hygen autoamtiquement : cours, fin juillet (voir [[id:f4582bec-9f09-4068-8cd0-65b4fb22413d][Limite rendus]] )
- dernière version de mane non utilisé : viendra avec curagen v2
* [[denote:20240719T113027][Aurapport]]
#+title: Prevalence and incidence of rare diseases: Bibliographic data
#+date: [2024-07-19 Fri 09:45]
#+filetags: :bib:facebook:
#+identifier: 20240719T094541
#+reference: orphanet2023prevalence
Idem [cite:@orphadata2024epidemio] mais moins à jour ?
#+title: Epidemiology of Rare Disease
#+date: [2024-07-19 Fri 09:42]
#+filetags: :bib:facebook:
#+identifier: 20240719T094239
#+reference: orphadataEpidemio
Données orphanet : épidémio par maladies avec une liste d'article et pour chaque la prévalence/incidenc/nombre de cas
Format XML.
Accès libre
#+title: Prevalence and practice for rare diseases in primary care: a national cross-sectional study in the USA
#+date: [2024-07-18 Thu 17:25]
#+filetags: :bib:facebook:
#+identifier: 20240718T172516
#+reference: Jo_2019
Médecine générale: estimé à 1.52% des visites (intervalle de confiance 1.01-2.28)
Méthode: enqute 2012-2014 en ambulatoire aux US
#+title: Prevalence estimation for monogenic autosomal recessive diseases using population-based genetic data
#+date: [2024-07-18 Thu 16:00]
#+filetags: :bib:facebook:
#+identifier: 20240718T160002
#+reference: schrodi2015prevalence
Méthode bayésienne pour maladie récessive, voir [cite:@bainbridge2020determining] pour un autre algo plus récente
HardyWeinberg : bof
Proba initiale comme "beta variante" (apparemment assez courant) puis théorme de Bayes
- paramètres de la distribution beta estimé sur 23k variants clinvar patho
Hypothèses
- Suppose pénétrance complète
- pas de consanguinité
Pas lu très en détail
#+title: Estimating cumulative point prevalence of rare diseases: analysis of the Orphanet database
#+date: [2024-07-18 Thu 14:50]
#+filetags: :bib:facebook:
#+identifier: 20240718T145042
#+reference: nguengang2019estimating
Stats avec orphanet, stats plus récente, voir [cite:@orphanet2023prevalence; @orphadata2024phenotype; @hoomm2024ordo; @orphadata2024natural; @orphadata2024epidemio]
Indicateurs : nb cas, point prevalence, birth prevalence, lifetime prevalence, annual incidence
Classe
- < 1/1 million
- 1 à 9/1 million
- 1 à 9/100k
- 1 à 5/10k
- 6 à 9/10k
- > 1k
- inconnu
- non documenté
non lu, pour référence
#+title: The burden of rare diseases
#+date: [2024-07-18 Thu 14:47]
#+filetags: :bib:facebook:
#+identifier: 20240718T144753
#+reference: ferreira2019burden
Méthode: recherche pubmed
Je n'ai regardé que les stats sur la prévalence
Définition maladie rare non consensuelle (Richter et al 2015)
- US: < 200k personnes (1 sur 1630)
- UE < 1/2000
- japona < 50k personne soit 1/2500
- moyenne 1/2500
Nb maladies rare 9 603 (orphadata)
39% des maladies rares ont une cause génétique (source: cet article)
Prévalence cumulative minimale 1.5-6.2%
Intéressant mais un peu vieux : regarder orphanet/orphadata à jour
#+title: Frequency-based rare diagnoses as a novel and accessible approach for studying rare diseases in large datasets: a cross-sectional study
#+date: [2024-07-18 Thu 14:45]
#+filetags: :bib:facebook:
#+identifier: 20240718T144533
#+reference: troster2023frequence
Utilise une définition basée sur al fréquence pour maladie rare (méthode non claire)
#+title: Determining the incidence of rare diseases
#+date: [2024-07-18 Thu 14:36]
#+filetags: :bib:facebook:
#+identifier: 20240718T143615
#+reference: bainbridge2020determining
MAF pour allèles patho dans maladies récessives. Calculable à la main
* Contexte (maladies récessives)
Majorité = hérité donc on peut calculer une incidence si toute les allèles patho sont connues et qu'on connat leur MAF
Pour une population nombreuses avec des "mating" aléatoires, on peut utiliser Hardy-Weinberg.
Mais la MAF des allèles patho est difficile à trouver.
* Biblio
- [cite:@schrodi2015prevalence] : approche bayésienne pour maladie récessive également, limite non claire pour moi dans l'article ("head allele ?")= allèles
* Apport
Allèles trop rare pour avoir une MAF d'une base de données publique, voir trop rare pour avoir un individu attent
* Prérequis
- cohorte de ~50 individus avec allèles patho connues
- MAF d'une base de donnée publiques
- seulement allèles patho
* Hypothèses ("raisonnables")
- les allèles pathogènes ségrègent de manière indépendente (raisonnable pour allèles très rares, Browning 2012)
- pas de consanguinité et mating aléatoire
- pénétrance complète
- MAF des bases de données publiques = représentation correcte de la MAF de la cohorte
- pas de biais de sélection des patients atteints dans la cohorte
* Méthode
1. allèles sans MAF mais présentes dans la cohorte: la MAF totale est calculée par
#+begin_src latex
\frac{m}{c} X
#+end_src
où m est la somme de ces MAF, c le nombre total des allèles et X le nombre d'allèles sans MAF mais présentes (à vérifier)
- Si la plupart des allèles ont été observées M \approx vraie MAF
- sinon, il faut aboslumenet le nombre total des allèles dans la population
- on suppose en plus que toutes les allèles non vues ont la mme MAF (raisonnable pour allèles rare)
- estimé par une loi de poisson dont le paramètre est estimé par un maximum likely hoood estimater
- la MAF par allèle est estimée par MAF moyenne
2. allèles sans MAF et absentes de la cohorte: non mentionne de l'article
3. allèles avec MAF et présente cohorte : non mentionné non plus :/
* Validation
** Données simulée
distribution MAF connue avec 50 indivisu biallélique/homozygote. Distribution testées
- 5 allèles courantes et 20 rare
- idem mais 110 rare
- 43 allèles de meme fréquence
Erreur : <= 2.6%
** Cohorte SCL13A5
37 famnilles
MAF totale : p = 0.18 de différence
* Limites
Biais dans la cohorte (origine européenne)
#+title: 20240717t134813 Retrocopy Contributions To The Evolution Of The Human Genome Bib Pseudogène
#+title: Gènes
#+date: [2024-07-16 mar. 10:52]
#+filetags: :meta:
#+identifier: 20240716T105243
- APOL1 Facteur de risque si haplotype G1/G2 pour néphropathie
- DPMK (AD) : dystrophie myotonique
- NPHP1 (AR) : syndrome de Joubert (signe dent molaire, néphoratique cystique, retard dev)
- STRC (AR) : surdité
- TANGO2 (AR) : encéphalomyopathie métabolique
- TCF4 : syndrome Pitt-Hopkins (retard mental, bouche large, dysmorphie, hyperventilation+dyspnée intermittente)
- NFIX Selon la position en acide aminé : sd de Malan ou Marshall !
#+title: Bibliographie pseudogène
#+date: [2024-07-16 mar. 10:49]
#+filetags: :projet:pseudogene:meta:
#+identifier: 20240716T104934
* TODO
liste gènes
- PMS2 and NF1
* Contexte
- [cite:@cheetham2019] définition pseudogène et la découverte de leurs rôle
- [cite:@yang24loss] revue de bactérie mais donne les types de pseudogene, algos <3 et base de données
- [cite:@chen2020rerecognition] idéal pour l'intro (utiliser la conclusion), inutible pour les pipeline (pas de mise à jour)
- [cite:@blueprint2020] court et accessible
* État de l'art
** KILL Découverte de pseudogène : hors du scope !
CLOSED: [2024-07-23 Tue 15:26]
À tester
- [cite:@abrahamsson2022ppsifinder] intéressant, python, récent
- [cite:@syber2022pseudofinder] bactéries + archées. Comparaison génome-base de données protéines ou autre génome
- utilisé par gencode (voir [cite:@pei2012gencode] qui combine curation manuelle (ex-HAVANA) avec pseudopipe et rétrofinder)
- [cite:@zhang2006pseudopipe] vieux, code disponible, utilisé par gencode (voir ci-dessous)
- [cite:@baertsch2008retrofinder] code disponible, utilise ARN messageisé par gencode (voir ci-dessous)
- [cite:@boer2023processen] récent, code disponible, processed seulement
Doute
- [cite:@miller2021sideretro] sideRETRO code disponible mais seulement les polymorphiques et "somatically inserted" -> pas pour nous ?
- [cite:@cabanac2023p] à tester ??? seulement validé sur plante et github marqué WIP
Identification
- détection de perte de gène: à tester ??
- https://github.com/hillerlab/GeneLossPipe
- remplacé par https://github.com/hillerlab/TOGA (nextflow): annote gène, marque orthologue et processed pseudègen
Non
- [cite:@zheng2007pseudogenes] idem [cite:@pei2012gencode] mais avec pseudofinder en plus, qui n'est pas disponible
- [cite:@solovyev2006automatic] historique, ENCODE, 2006, code payant/non dispo
- [cite:@zou2009evolutionary] sur les plante, utilise pseudopipe 2006
- [cite:@mascagni2021structural; @camiolo2018identification] inspiré de pseudopipe, plante (le premier article utilise les résultats du second)
- [cite:@cooke2014processed] méthode déjà vue ailleur et c'est du cancer
** KILL Base de données
CLOSED: [2024-07-23 Tue 15:26]
voir [cite:@yang24loss] pour les ref
- psidR par GENCODE (intégration de plusieurs pipeline)
- pseudoMap
- pseudoFam
- pseudogene
- pseudoFuN
- Dreambase
* Related
- [cite:@van2006ppfinder] idée intéressante, non maintenu depuis 2006 (?)
*** KILL Peu utile
CLOSED: [2024-07-23 Tue 15:26]
- [cite:@ijms17121991] mini-comparaison de 3 vieux pipeline mais mal écrit et vieux
- https://github.com/kelkar/Discover_pseudogenes non maintenu > 7 ans,
- https://github.com/SBCSnicholsLab/pseudogene_quantification Proportion d'ADN vagrand (extra-nucléaire) : pas le scope
* Méthode
- Biblio
- https://github.com/topics/pseudogenes
- recherche google
#+title: Projet pseudogene
#+date: [2024-07-16 mar. 10:49]
#+filetags: :projet:pseudogene:
#+identifier: 20240716T104901
Ou régions répétées
* Contexte
- on couvre 98% (régions codantes) mais les 2% sont vraiment un "trou"
- sera un des défauts principaux d'auragen après curagen v2
- proposer une annotation dans la limite de ce qu'on peut faire sur ce genre de région
- liste de pseudogene connue +++
* Objectif
:PROPERTIES:
:CUSTOM_ID: h:5e2833d6-77eb-4b94-b82f-0b8f36472af7
:END:
- Porter [[https://github.com/Genome-Bioinformatics-RadboudUMC/Chameleolyser][Chameleolyser]] [cite:@steyaert2023systematic] en
- hg19 -> hg38 [[https://github.com/Genome-Bioinformatics-RadboudUMC/ChameleolyserBEDs][fichiers BEDs]]
- +/- recoder en python
* [[denote:20240716T104934][Bibliographie pseudogène]]
* Notes
Il faudra utiliser le VCF avant la biglist donc relancer toute l'annotation -> il faut un accès cluster
* Tâches :
- biblio
- porter script en hg38
- test sur NA12878 en attendant accès au cluster
* Patient test
** MR-2202491: chr1:155235252A>G sur /GBA/ : probablement recombinaison avec pseudogène /GBAP1.
séquence très proche entre les 2 gènes donc alignement difficile.
Plusieurs reads ont donc une mauvaise qualité -> VAF sous-estimée
** MR-1900206 ?
variant sur IKBKG cas index (D. Sanlaville) mais on ne peut conclure sur le status en mosaïque : de novo + pseudogène (IKBKGP), garçon klinefelter
** MR-2303627 TUBB2B confirmé à Lyon par technique complémentaire
Lyon (Louis Januel)
chr6:g.3225154G>A
#+title: Cas intéressants
#+date: [2024-07-16 mar. 10:48]
#+filetags: :aurapport:
#+identifier: 20240716T104823
* Manqué par CNVator mais corrigé
- délétion homozygotes par combinaisont de délétion htz chez les parents
- non vu car pas de lecture avant, sur la délétion et après. Vu sur les contrôles qualité
- [[http://172.25.219.90:8080/ascute-au/igv/igv-mr-cnv.html?caseid=MR-2000696&libtype=WGS&libid=LIB00004634_S13,Cas%20index;LIB00004635_S14,P%C3%A8re;LIB00004636_S15,M%C3%A8re&locus=chr11][MR2000696 IGV]]
- /corrigé avec nouvelle approche délétion homozygote/[[id:64f82f33-24bb-475b-ad85-3303c5a20a8d][Délétions homozygotes]]
- délétion rendu htz mais en zoomant, il y a une délétion homozygete (parents htz)
- [[http://172.25.219.90:8080/ascute-au/igv/igv-mr-cnv.html?caseid=MR-2101658&libtype=WGS&libid=LIB00008076_S24,Cas%20index,42.1;LIB00007993_S1,P%C3%A8re,46.1;LIB00008005_S4,M%C3%A8re,46.9;LIB00008017_S7,Soeur,45.3&locus=chr8][MR-2101658 IGV]]
- del 22q11.2 de novo cachant une del homozygote
* Manqué curagen v2
:PROPERTIES:
:ID: b2efd060-db25-414f-bd38-8c1ff2bbfdc9
:END:
MR-2202491 : /GBA/ (maladie de gaucher, récessif) : 1 variant dans le CR mais second variants retrouvé dans le BAM par le bio !
[[https://auragen.atlassian.net/wiki/download/attachments/931332112/2023_09_22_PFMG_SFMPP.pptx?api=v2][Slides]]
* ADN étranger
- MR-24000847 : KIF5A avec 500x -> si on fait un BLAST, on a le génome de parvovirus donc infection probable avec virémie importante
* Variant hémizygote
- 2305313 : homozygote chez cas index + mère.
IGV : délétion récurrente cohorte donc hémizygote en pratique
* Région riche GC
http://172.25.219.90:8080/ascute-au/igv/igv-mr.html?caseid=MR-2302630&libtype=WGS&libid=LIB00037448_S9%2CCas%20index%2C34.5%3BLIB00037491_S4%2CM%C3%A8re%2C34.9&locus=chr22:50697463-50697627
* Reads de mauvaise qualité
Variants chrX:154562733 IKBKG : seulement 4 reads porteurs et de mauvaise qualité : rendu grâce à l'expérience du bio (classe 4) + commentaire pour demander confirmation (limite pré-analytique)
* Faux positif appel de variant
MR-2200237 sur CUX2
* Cyto
- [[http://172.25.219.90:8080/ascute-au/igv/igv-mr-cnv.html?caseid=MR-2202749&libtype=WGS&libid=LIB00017442_S12%2CCas%20index%2C39%3BLIB00017443_S13%2CP%C3%A8re%2C34.6%3BLIB00017444_S14%2CM%C3%A8re%2C24.5&locus=chr4:81100001-85720000][MR-2202749]] complexe en 4q21.22q21.23 probablement patho = 1 gain de 2.56Mb et un de 41kb avec décalage potentiel du cadre de lecture de WDFY3
- MR-20231276 chr12:99192348 : ABCDE -> ACE avec le C inversé. C'est un polymorphisme gnomAD
Pas de reads qui couvre tout donc manta ne peut pas la reconstituer
#+title: Case report CHD7
#+date: [2024-07-16 mar. 10:46]
#+filetags: :article:chd7:
#+identifier: 20240716T104643
Remaniement complexe en génome, non vu en ACPA (trop petit) et manqué en panel CHARGE
Formule écrite, à rendre
Attente résultat pour revoir la famille
Attente de revoir la famille pour demander accord publication + autorisation nanopore biomnis (sont ok mais ))
ADN disponible parents (extraction Auragen) et cas index (extraction ici)
#+title: Génétique biologique
#+date: [2024-07-16 mar. 10:42]
#+filetags: :bio:
#+identifier: 20240716T104253
* Gènes
[[denote:20240716T105243][Gènes]]
* Moléculaire
** STR
- Répétition 2-6 nucléotides
- 3-6% génome
- instable entre génération
Clinique:
- marqueur tumoral (instabilité des zones très polymorphes = microsatelles)
- expansions dans maladies rares
- neuro: Huntington (/HTT/), dystrophie myotonique, ataxie cérébelleuse (/RFC1/), démence frontotemporale (/C9orf72/), SLA (/C9orf72/), épilepsies myocloniques
- développement : X fragile (/FMR1/) Mécanisme: perte de fonction, gain de fonction toxique
Techniques
- southerblot
- ngs short read avec outils dédiés ([[id:e4568e0f-e9e1-4432-9b56-c2cece9d9d11][Expansionhunter]])
- long-read
** Duplication segmentaire
:PROPERTIES:
:ID: c88ff729-d478-4e8d-82b9-bd6cc186b489
:END:
Duplication > 1kbp avec > 90% de similarité . Peutêtre sur le même chromosome ou non
https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-021-07789-7
Gene retrocopy insertion : rétrotranscription d'ARN
** Pseudogène
- Région non fonctionnelle, ressemblant à des gènes fonctionnels
- Mécanisme : rétrotranscription 'ARNmessage, segmental duplication,
mutation inactivatrice'
- fonction : aucune pour la plupart mais certains ont regagné une
fonction ou ont acquises une nouvelle (codant pour protéine, micrARN,
...)
Source : [[https://en.wikipedia.org/wiki/Pseudogene][Wikipédia]]
* Mitochondrial
- dans [[id:c970b946-efd4-4ae6-b6b1-cd5705e7a6e0][Mitochondrie]]
- plupart code pour ARN mitochondrie donc plupart des mutations ont
impact fonctionnel (ex: myopathies)
* Cytogénétique
** [[id:2839cb56-73c3-4aef-85f1-e9e8d2d553b2][Bandes chromosomiques]]
** Copy-number
- [[id:98292470-4cac-4d92-976a-f105192dfd8b][SNP-array]]
** [[id:28e01aab-f252-433f-be2c-1491d4deae9b][Disomie uniparentale]]
#+title: Projet Facebook
#+date: [2024-07-16 mar. 10:41]
#+filetags: :cad:projet:
#+identifier: 20240716T104105
Bibliographie pour "privacy attacks":[[file:~/org/reports/biblio_facebook.org]]
Schéma
- Données = WGS, phénotype et système de santé (DPI etc)
- 3 niveaux
1. public : /anonymisation/ que peut-on y mettre ? À ce stade, le CAD s'engage...
2. sous authentification : /pseud-anonymisation/ : qu'y mettre (mais moins important)
3. accès complet
Problème: pour >=1 variant et >= 1 phénotype, peut-on garantir l'anonymisation ?
A priori, problème non fait
Modèle: décipher
Idées :
- si on a suffisamment de patient, les variants rares vont être "dilués". On s'attend à 50-60 000 génomes
- on peut avoir une idée du nombre de SNP identifiants (25)
- et du caractère identifiant des phénotypes (voir la notion d'entropie par [cite:@erlich2014])