YPDSPTWQBZJEZNGFOPX6ZX5AR3R2X7PRHRQA2M3BVN32UKQGKLEAC
#+title: Processed pseudogenes acquired somatically during cancer development
#+date: [2024-07-17 Wed 17:35]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T173522
#+reference: cooke2014processed
Utilisé en cancer mais le principe a été vu auilleurs
- reads qui sont exactement sur des sites canoniques d'épissage qui sont aligné sur des exons mais avec une taille d'insert trop grand
- ou reads qui sont entre nu pseudogene et son side d'insertion
- candidat : >= 3 exons d'un gène dans l'ADN de la tumeur avec >= 2 site canonique d'épissage
- élimintation germiline
#+title: Identification of Pseudogenes in Brachypodium distachyon Chromosomes
#+date: [2024-07-17 Wed 17:33]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T173314
#+reference: camiolo2018identification
Algorithme de [cite:@camiolo2018identification] , inspiré de [cite:@zhang2006pseudopipe]
Identification
1. séquence peptidique pour exons codons = utilisé pour recherche tPlantN sur une version "hard masked" du génome de référence
2. CDS qui correspondent à > 30% d'une région répétée filtrées
3. exon codant + nucléotide des régions adjacente (entre 51 et 53bp) : on sélection les hit avec > 50% d'intetié et e-value < 10-6
4. fusion des résultat si < 100bp
5. hit overlap > 20% sont groupé et on ne retinent que les meilleures paire pseudègene-requte
6. classification dupliqué/processe/ambigue
#+title: Structural characterization and duplication modes of pseudogenes in plants
#+date: [2024-07-17 Wed 17:20]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T172022
#+reference: mascagni2021structural
Plantes. Récent et nature. Code non disponible
Algorithme de [cite:@camiolo2018identification] , inspiré de [cite:@zhang2006pseudopipe]
#+title: Re-recognition of pseudogenes: From molecular to clinical applications
#+date: [2024-07-17 Wed 16:42]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T164222
#+reference: chen2020rerecognition
Non lu mais (hormi l'aspect logiciel + conclusion).
Donne beaucoup d'informations sur les pseudogène et leur fonction (ADN, ARN, protéine), idéal intro mais long
* Détection
** ADN
- pseudopipe
- pseudofinder
- retrofindder
Base de données : ENCODE, FANTOM = construite sur plusieurs pipeline -> gold standard
** ARN
RNA-seq = choix de référence. Nombreux pipeline
qRT-PCR et microarray moins chez mais attentio à la spécificité des sontes
ISH et FISH = distribution des transcripts
* Conclusions de l'article
1. != poubelle car nombreuses fonction (ADN, ARN, protéine) notamment la capacité d'encode des proténies fonctionnelles !
2. produit de mutation dans un gène -> 3 catégories
3. spécificités associés à une cilinuqe notamment une distributuion large et inégale, une expression avec des motifs spatiotemporels et conservé dans l'évolution -> utilisation possible en diagnostic, pronostic et thérapeutique
4. méthode actuelle améliorées au niveau de l'ADN et ARN mais encore au début
#+title: Loss to gain: pseudogenes in microorganisms, focusing on eubacteria, and their biological significance
#+date: [2024-07-17 Wed 16:10]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T161021
#+reference: yang24loss
Revue, axée bactério mais fait le travail
Types de pseudogène (image décente)
- dupliqué ("unprocessed")
- rétropseudogene ("processed")
- et pour les mamifère : dérivé d'ARN circulaire
Identification
- pseudopipe [cite:@zhang2006pseudopipe]
- pseudofinder [cite:@zhang2006pseudopipe]
- rétrofinder [cite:@baertsch2008retrofinder]
- sideRETRO [cite:@miller2021sideretro]
- psyfinder [cite:@abrahamsson22ppsifinder]
- pseudofinder [cite:@syber2022pseudofinder] (2022)
Base de données
- psidR par GENCODE (intégration de plusieurs pipeline)
- pseudoMap
- pseudoFam
- pseudogene
- pseudoFuN
- Dreambase
#+title: Discovery of non-reference processed pseudogenes in the Swedish population
#+date: [2024-07-17 Wed 15:38]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T153851
#+reference: boer2023processen
Objectif : nouveaux processed pseudogene à partir de génome
Contexte: déjà fait mais à 5x seulement
Code: Processen https://github.com/J35P312/Processen
Algorithme
- pairs avec reads sur même gène mais exons différent avec taille d'insert plus grande qu'attendue
- ces reads sont aligné sur le transcriptome avec Salmon
- position : on cherche variants de structure dans le vcf annoté (delly pour appel de variant, VEP) pour annot puis
- insertion si une position est proche du début ou fin du gène parent /et/ autre position sur autre chromosome/l'équivalent de la longeur du gène parent
- site d'insertion fusionnés si <= 500bp
visualation : circos plot (logiciel)
Résultats
- appliqués au génome de 1000genomes + cohorte SweGen : 3 021 processed pseudogene manquant dans GRch38
#+title: The GENCODE pseudogene resource
#+date: [2024-07-17 Wed 15:11]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T151124
#+reference: pei2012gencode
Méthode :
- combinaison de
- prédiction par pseudopipe et rétrofider (~9k)
- confirmation manuelle (11k)
- donc ~7k sont à l'intresection
- enfin, comparaison à des donnée fonctionnelles (ENCODE) et variantions génomiqe (1000 genomes)
- annoté par biotype selon mécanisme
non lu en détail
#+title: Ensuring privacy and security of genomic data and functionalities
#+date: [2024-07-17 Wed 14:48]
#+filetags: :bib:facebook:
#+identifier: 20240717T144855
#+reference: yakubu2019
Super tableau avec les types d'attaques et les articles
Figure 1 qui résume bien la classification
Discute cryptographique, techniques pour préserver confidentalité -> non lu
* Attaques
** Identity tracing attack
À partir de l'ADN (anonymisé oun no identifié) -> identifie le patient avec des quasi-identifier (age, sexe, nom de famille etc) obtenu depuis réseaux sociaux ou bases ded onnées publique (peoplesmart, findoutthetruth)
Ex: nom de famille trouvé pour
- partisan PGP (Sweeney 2013)
- à partir du chrY [cite:@gymrek2013]
[cite:@erlich2018] : à partir du génome d'un suspect, on cherche ses apparenté dans des services public de généalogie
Avec un service qui répond oui/non pour un allèle dans un génome, on peut savoir si un individu est présent dans cette base[cite:@shringarpure2015]
** Attribute disclosure
Prédire attributs "sensible" des victimes (phénotype, association maladie, drogue
ADN connu
On cherche base de données d'étude génétique ou GWAS
Stastitique aggréges ne cachent pas [cite:@cai2015]
Si on a le phénotype complet et accès au génotype de pluseurs individus, on peut retrouver le génotype et en déduire une présdisposition alzheimer dans [cite:@humbert2015anonymizing]
[cite:@lippert2017] Prédiction de caractéres phénotypique (parte 1) et identification basée dessus parmis une pré-selection. Critique violente par [cite:@erlich2017major] : age, sex et ethinicité suffisent à avoir la même précision
Pharmacogénétique: inversion d'un modèle prédisant warfarine pour un undifiviut: on peut avoir la génétique et certains paramètres (age, ethnie, taille, poids)
** Completion attacks
Reconstruction de l'information génétique à partir
- de l'ADN parcellaire de la cible
- ou de l'ADN de la famille
- Possible du fait de la corrélation importante.
- Pionnier [cite:@humbert2013addressing]
- réciproque : ADN de la famille à partir du cas index [cite:@humbert2017quantifying] (même modèle mais amélioré -- ils ont juste mis à jour l'article)
amélioration [cite:@deznabi2018inference] avec corrélation complexe mais même idée
Prédiction génotype et phénotype: [cite:@he2020inference]
Enfin, une technique complètemenet différente: utilisation des haplotypes identiques dans la généalogiue (IBD = identical by descent) [cite:@kong2008detection]
** Tableau
| Type | Article | Données de la cible | Données externes | Résultat | Performance | Méthode |
|------------+--------------------------------+----------------------------------+-------------------------------------+--------------------------+----------------------------------+-----------------------------|
| Identity | [cite:@sweeney2013] | démographie [fn:1] | registre de vote, autre | Nom et prénom | 35% | Simple comparaison |
| tracing | [cite:@gymrek2013] | STR du chrY | généalogie avec génétique | Nom de famille | 12% | Score de confiance pondéré |
| | [cite:@shringarpure2015] | VCF, modèle des AF | non | Présent dans la base | puissance 95% [fn:4] | Likelyhood-ratio test[fn:3] |
| | | de la pop. cible | | | (250SNP) | |
| | [cite:@raisaro2017] | VCF, AF | non | Présent dans la base | puissance 100% [fn:4] | Likelyhood-ratio test |
| | | | | | (36SNP) | |
| | [cite:@vonthenen2019] | VCF | | Présent dans la base | puissance 100% [fn:4] | Linkage desequilibrium |
| | | | | | (450 requêtes) | |
| | | | | Présent dans la base | même pour SNP | Chaine de Markov |
| | | | | | filtré MAF < 3% | |
| | [cite:@erlich2018] | test DTC[fn:5] | généalogie avec génétique | Apparenté [fn:8] | 60% | Segments ADN hérité |
| | | (+/- position, âge, sexe) | | Individu cible | 1-2 candidats[fn:6] | |
|------------+--------------------------------+----------------------------------+-------------------------------------+--------------------------+----------------------------------+-----------------------------|
| Attribute | [cite:@cai2015] [fn:13] | > 25 SNPs | statistiques GWAS | Individu dans GWAS | 12-20 personnes [fn:7] | Data mining |
| disclosure | [cite:@humbert2015anonymizing] | phénotype complet | corrélation SNP-phénotype | Prédisposition Alzheimer | 85% (80 individus) | statistiques |
| | | | SNPs de différents individus [fn:9] | | | |
| | [cite:@lippert2017] | | | Phénotype d'un individu | moyenne à mauvaise[fn:10] | |
| | | | | Identification parmi | | |
| | | génome | non | un préselection[fn:11] | précision 0.45 [fn:12] | Machine learning |
|------------+--------------------------------+----------------------------------+-------------------------------------+--------------------------+----------------------------------+-----------------------------|
| Completion | [cite:@humbert2013addressing] | SNP parent, généalogie, MAF SNPs | généalogie | SNP cible | erreur entre 0.05 et 0.2 [fn:14] | Belief propagation |
| | | linkage desequilibrium | | | | |
| | [cite:@humbert2017quantifying] | idem mais >= 1 individus | | idem mais >1 individu | | |
| | [cite:@deznabi2018inference] | idem mais corrélation | | | | |
| | | plus complexes (à citer ??) | | | | |
| | [cite:@he2020inference] | idem mais phénotype prédi | | | erreur 0:4 et 0.5 | |
Autre
[cite:@fredrikson2014privacy] : contrairement à ce qui est mentionné dans la revue, ne regarde que le génotype donc pas intéressant ici
* Footnotes
[fn:14] selon famille. Préciser incertitude et type de tests ?
[fn:13] je ne mentionne pas les 2 autres études qui utilisent plus de SNPs (2008 et 2009)
[fn:12] Voir [cite:@erlich2017major] pour une réfutation
[fn:11] pré-selectionnés sur le phénotype. performance similaire (0.53) pour faire corresponder des phénotype et des génotype
[fn:10] À préciser ?
[fn:9] retrouve d'abord le génotype
[fn:8] cousin 3e degré
[fn:7] Ordre de grandeur des GWAS 1400-2000 individus
[fn:6] En supposant connu: la position +/- 160km, âge +/-5 an et sexe (cas d'usage: recherche policière)
[fn:5] Test en pharmacie avec 700 000 sondes
[fn:4] Avec 5% de faux positifs
[fn:3] Statistique
[fn:2] Distribution dite "beta"
[fn:1] age, sexe, code postal
#+title: Re-identification of individuals in genomic data-sharing beacons via allele inference
#+date: [2024-07-17 Wed 14:47]
#+filetags: :bib:facebook:
#+identifier: 20240717T144750
#+reference: vonthenen2019
Amélioration de [cite:@shringarpure2015] et[cite:@raisaro2017] : meilleure sélection des SNP et infère les allèles cachée
Contrainte: l'attaquant à accès
- aux MAF de la population contenant la cible
- le linkage desequilibrium (corrélaction entre 2 SNPs)
* Méthode
Technique: "linkage deisequilibrium"
Pour les partes manquante : high-order Markdov chain
* Résultat
Testé sur 65 indiviu CEU du projet Hapmap
beacon de 65 personnes CEU hapmap
Avec 450 requêtes, puissancee de 100% et 5% de faux positifs. ON retrouve les SNPS filtrés MAF < 0.03
-
#+title: Iterative gene prediction and pseudogene removal improves genome annotation
#+date: [2024-07-17 Wed 14:47]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T144733
#+reference: van2006ppfinder
Non maintenu, code source https://mblab.wustl.edu/software/download/ppfinder.1.tar.gz
Processed seuls
Utilise N-SCAN pour estimer le gène parent
* Méthode
pour un "modèle de gène", essaie de trouver un gène parent qui aurait donné le pseudogène par rétroposition
NB: exemple de modèle : exon pseudogene + exon1 + eon2
** Liste candidats
*** Technique 1: introns
Principe : ceux qui ne sont pas dérivé du pseudogene = match seulement eux-même et gène de la même famille.
Pseudogène vont matcher sur leur parent
1. BLASTn du gène sur une base de données (même organisme)
2. on choisit le meilleur transcrit
3. on récupère la séquence du parent potentiel
4. ce parent est aligné
5. si les "trous" dans l'alignement ne correspondent pas introns du gène, c'est potentiellement un pseudogene
Limite: si le segment aligne sur un seul exon. Ou si le parent a un seul exon (mais apparement géré au cas par cas dans le supplementary)
*** Technique 2 : conserved synteny
1. Pour chaque exon du "gene model", BLASTp sur une base de donnée de protéine
2. on garde les hits > 65% sur >= 9 acides aminés
3. Si les hit n'ent pas la même position que le modèle, potentiel pseudogene (nombreux résultats !)
4. comparaison avec un autre génome (ci: souris).
- tBLASTn pour la comparaison
- correspondance avec synteny map UCSC (meilleur alignement de la souris pour tout le génome humain)
- si pas de correspondance dans une région orthologue (= dérivée d'un même ancêtre), pseudogène probable
Le principe est que les pseudogène vont disparaître avec le temps
Limite : ne gère pas les pseudogène ancestraux
** Filtres
Faux positifs
- technique 1 : les gènes de la même famille sont différents sont >= 1 introns
- technique 2 : se gène prédit appartient à une famille et avec >= 1 exons en dehors des régions de "conserverd synteny"
Vérification: gène parent aligné sur la région génomique autour du candidats
Les vrai pseudogène ont une longueur moyenne de "trous" (introns potentiels) <= 2*longueur moyenne des segments alignés (exons potentiels)
Ce filtre surprime les "processed pseudogene"
* Tests
- CCDS: on s'attend à avoir 0, en pratieque 0.3% = ce sont des rétrogene fonctionnels (car ils ont des "expressed sequence tags = EST"). Autres = petits introns
- track UCSCS "vega pseudogene" (groupe "Havana", désormais fait partie d'ENSEMBL) : 78%
- ENSEMBL: environ 50% ?
#+title: Pseudofinder: Detection of Pseudogenes in Prokaryotic Genomes
#+date: [2024-07-17 Wed 14:47]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T144719
#+reference: syber2022pseudofinder
Bactéries et archées ici
Très peu de pseudogène mais il en existe
En générale, annotation
- manuelle
- ou script maison
- pou pipeline (PGAP en 2016, DFAST en 2018) -> utilisép our annotation fonctionnelle
Outils récents
- génome de mammifère (20): le plus récent et Alsve 2020 avec un outil en ligne mais non accesible le <2024-06-24 lun.>
- pour les prokaryotic, plusieurs outils : plus récent = PEPPAN (Zhou 2020) mais fait ud pangénoème. Et apparement ils ne sont pas open-source, fait pour du pangénome ou les paramètres ne sont pas modifable
Algorithme: annotation d'un génome en comparaison avec une base de donnée de protéine ou un génome "proche"
Validation:
- génération aléatoire de pseudogène dans un génome de Shigella flexneri
- comparaison avec PGAP et DFAST
#+title: Identifying Participants in the Personal Genome Project by Name (A Re-identification Experiment)
#+date: [2024-07-17 Wed 14:47]
#+filetags: :bib:facebook:
#+identifier: 20240717T144704
#+reference: sweeney2013
Données
- 1130 profile du projet PGP -> 579 avec date de naissance, genre et code postal (US) à 5 chiffres
- registre de votant, accès à un site de base de données publique
Méthode: intersection entre PGP et ces 2 bases sur code postal, date de naissance et sexe
À noter que Nom des patients dans le fichier DNA extrait.... ex "enome_Elaine_Smith_Full_629562.txt."
Résultat: avec la base de données des vote : 130 correspondant unique -> 103 noms
sur record publique : 156 unique
donc 241 match cumulé
-> 84% correspondant (97% si on considère les surnoms)
Soit 35% sur le total
#+title: Privacy risks from genomic data-sharing beacons
#+date: [2024-07-17 Wed 14:46]
#+filetags: :bib:facebook:
#+identifier: 20240717T144648
#+reference: shringarpure2015
Service web qui répond oui/non à la question "y a-t-il un nuclétotide donnée à une position données".
Context : GA4GH veut proposer ce service
Peut-on dire si un individu est dans un beacon ?
Hypothèse
- On a un VCF avec les variants (ALT) et génotype à ces positions
- On ne connait pas les fréquences alléliques (pour être plus général) mais elles sont modélisées par une distribution Beta
Modèle stat (likelihood-ratio) pour ré-identifier.
* Méthode
- Données simulées: 500k SNP à partir de 1000 individus
- 100genomes : 65 individus CEU
* Résultat:
- Données simulée : puissance de 95% pour détecter un individu avec 5k requêtes
- données CEU: 250snp : 95% puisson et 5% faux positif
Plus performante si plusieurs popoulation (pas juste CEU)
#+title: Bayesian method to predict individual SNP genotypes from gene expression data
#+date: [2024-07-17 Wed 14:46]
#+filetags: :bib:facebook:
#+identifier: 20240717T144635
#+reference: schadt2012bayesian
Identification entre 90 et 98% selon les tissus dans [cite:@schadt2012bayesian] (foie, poumon) à partir d'ARN.
#+title: Ethical implications of epigenetics in the era of personalized medicine
#+date: [2024-07-17 Wed 14:46]
#+filetags: :bib:facebook:
#+identifier: 20240717T144620
#+reference: santalo2022ethic
Éthique de l'épigénétique
Risque de réidentification d'un échantiollon de doneur
Avec le séquencage whole-génome bisulfite (pour la méthylation des ilôts), on a l'ADN à la paire de base près
"absolute data confidentiality and privacy cannot be guaranteed"
mais mesure pour diminuer risuqe
1. filtrer l'information qui donne le génotype de manière indirecte
-> filtrer CpG ou probles avec SNP communs
2. On peut rapporter mutitation somatique mais pas germilne (reco de the cancer genome atlsa project [cite:@dyke2015epigenome] ) qui semble plus intéressante
3. variabilité des marqueurs épigénétique donc monis important (dépend du tissue, de l'âge du patient)
NB: épigénétique contient information sur le comportement de l'individu dans le passé + environnement
#+title: Estimating the success of re-identifications in incomplete datasets using generative models
#+date: [2024-07-17 Wed 14:44]
#+filetags: :bib:facebook:
#+identifier: 20240717T144446
#+reference: rocher2019estimating
un modèle entraîné sur des données démographiques anonymisées (rencesement, sondages) permet d'identifier 99.98% des Américains, indépendamment des données génétique. [cite:@rocher2019estimating]
#+title: Addressing Beacon re-identification attacks: quantification and mitigation of privacy risks
#+date: [2024-07-17 Wed 14:44]
#+filetags: :bib:facebook:
#+identifier: 20240717T144433
#+reference: raisaro2017
Article dans le même principe que [cite:@shringarpure2015]
Mais ici l'attaquant connait la fréquence allélique du beacon -> puissance plus importante.
Selon les auteurs, ce n'est pas aberrant car disponible sur des bases de données en ligne (1000 genome, hapmap...)
Il faut le VCF de la victime
* Résultat
502 échantillons EUR du 1000 genomes
- si l'ancestry est connu, 3 SNPs suffisent pour puissance de 100= et 5% faux positifs
- (plus réaliste): seulement férquence allélique connue d'une poplutaion (d'origine potentiellement différente du beaucon): 36SNps suffisent
#+title: SNPs for a universal individual identification panel
#+date: [2024-07-17 Wed 14:44]
#+filetags: :bib:facebook:
#+identifier: 20240717T144416
#+reference: pakstis2010snps
45 SNPs suffisent à identifier un individu parmi 44 populations.
#+title: On Jim Watson’s APOE status: genetic information is hard to hide
#+date: [2024-07-17 Wed 14:44]
#+filetags: :bib:facebook:
#+identifier: 20240717T144400
#+reference: nyholt2009jim
Illustration du principe linkage disequilibrium : en utilisant des SNPs autour d'AOPE associés significativement à des SNPs dans le gène ou à un risque d'Alzheimer.
#+title: The GDPR and genomic data
#+date: [2024-07-17 Wed 14:43]
#+filetags: :bib:facebook:
#+identifier: 20240717T144347
#+reference: mitchell2018gpdr
chap 08: un paragraphe résume la biblio (rien de neuf)
* Mitigation
Technique (developpé ailleur)
- k-anonymité : aucune entrée n'a une combinaison de quasi-identifier unique -> remis en cause par ERlich
- ajout bruit (differential privacy) -> Erlich: trop de bruit pour des GWAS ?
Au lieu de proposer de la donnée, on ne rend que des stats (ex: DataSHIELD)
- les données avec < 5 entrées ne sont pas envoyée directement
- risque résiduel mais mécanisme robust
GA4GH: modèle = Beacon
- limite K: permet de savoir si un individu est présent. Le problème est qu'ils sont liés à un maladie
Problème : trouver un consensus. 2 approches
1. l'attaquant a beaucoup d'information + compétence technique. Les auteurs considèrent qu'avoir un VCF n'est pas réaliste car non utilisé en clinique...
Sont assez poisitfs
"de-identifying data as far as possible, using advanced encryption and shifting to query-based systems rather than releasing data, should go a long way to ensuring that data remain reasonably unidentifiable . Combined with legal and environmental controls on data access and use (discussed below) it is highly likely that many uses of genomic data are capable of being sufficiently protected from re-identification that they fall outside the scope of the GPDR (for at least some of that processing).
Conclusion
"One is that although they are not inherently identifiable, genome sequences and sub-sets
of genomic data are potentially highly identifying. As discussed in this report, there is an active field of science assessing the identifiability of genomic data, and how its privacy can be preserved (chapter 8). However, this can be highly technical and it is not easy for those outside the field, including health care professionals, scientists, policymakers and regulators, to make an assessment of the identifiability of genomic data in context."
#+title: sideRETRO: a pipeline for identifying somatic and polymorphic insertions of processed pseudogenes or retrocopies
#+date: [2024-07-17 Wed 14:43]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T144330
#+reference: miller2021sideretro
Code C https://github.com/galantelab/sideRETRO
Seulement les "unfixed retropcopies" (somatically inserted ou polymorphiques)
Input: bam/sam/cram,génome de référence et transcriptome
* Algorithme
1. sélections paires mal alignée
- soit "discordants" = trop loins, soit sur des chormosomes distent
- soit "split read"
2. retient ceux qui sont dans une région exonique (gène parent) et son "mate" (potentiellement oint d'insertion)
3. groupe ces reads avec dbscan (clustering) pour trouver le gèn parnet + ponits d'insertion
Otuput: gène parent, point d'insertion, brin, génotype
* Données simulées
Sur 100 génomes humaines, ~31-45 rétroCNV par génoome avec error
N'identifie pas ceux dans régions très répétes mais 79/86 des intro, not. régions LINE9SINE
Testé sur 1000 genomes
- 5 individus avec génomes et exomes différents: 5 candidats -> 3 validés
- 20 dans génomes
- 6 exomes
- retrouve les 3 validés dans la litérature (1 manqué exomes)
- cohorte de 1000 individuts
#+title: Identification of individuals by trait prediction using whole-genome sequencing data
#+date: [2024-07-17 Wed 14:42]
#+filetags: :bib:facebook:
#+identifier: 20240717T144259
#+reference: lippert2017
Contexte: prédictions couleurs de la peau (4 publi), couleur des eyes (morphologie faciable)
Objectif :
- à partir de données de génomes
- préduction morphologie faciale, voix, âge biologie, taille, poids IMC, coleur eyes + pea, sexe
* Méthode
- Génome 30x 1 000 individus san diago (diversité)
- prédictio visage
- décomposition visage en élément principaux
- idem pour 1000 "éléments principaux génomiques" (donc éléments qui "définissent simplement" un individus en se basant la différence avec des SNPs common ? méthode non clair) avec sex, IMC e tage comme covariant
- prédiction voix
- vecteur 100 élements pour représenter enregistrer de la voix
- covariate : 1000 éléments princiaux généomique et sex
- âge basé sur la longeur des télomère, perte en mosia¨que du X
- taille, poids, IMC : utilisation de positions associées statistiquement (cf biblio) -> "régularisation stastitique" + ajout composant prinicap génomique + sex.
- eyes : 8 SNP
couleur peau : 11 gène
* Résultats
- visage : assez variable mais basé sur R^2CV par pixel (visage) et élément du vecteur -> semble assez bof
- voix = mauvais (et la métrique est discutable
- Taille moyen, mauvais pour poids IMC
- yeuax, coleur peau correct
** 1 individus parmi N avec un phénotype, comment le retrouver ?
tous les attributs, pool de 50 (= pire cas): 0.45 précision
** N génomes peuvent être apparaisé avec N phénotype ?
tous les attributs, pool de 50 (= pire cas): 0.53 précision
** 10 candidats parmis une cohorte de 100 88%
#+title: Detection of sharing by descent, long-range phasing and haplotype imputation
#+date: [2024-07-17 Wed 14:42]
#+filetags: :bib:facebook:
#+identifier: 20240717T144244
#+reference: kong2008detection
Pour les familles séquencées avec SNP-array haut dentisé, cet article montre qu'il est intéressant d'utiliser des individus assez éloginées (3-20) méoides
2 individus qui sont cousins au degré n: 2(n+1) méoides donc la probab de prartage un locus IBD est 2^{-2n}
Ici, on utiliser pour phaser les haplotype (il suffit d'avoir une région IBD)
Pour un SNP hétérozygote, il suffit de trouver un apparenté homozygote
données islandaise (35k) : un indivus partage avec 17-18 autre un IBD
Pas lu plus en détail
#+title: Actionable genotypes and their association with life span in Iceland
#+date: [2024-07-17 Wed 14:42]
#+filetags: :bib:facebook:
#+identifier: 20240717T144229
#+reference: jensson2023actionable
Suite après le refus d'inférer le génotype, l'entreprise a continuer à séqunecer plus de génomes et combiner à SNP-array.
#+title: Quantifying Interdependent Risks in Genomic Privacy
#+date: [2024-07-17 Wed 14:42]
#+filetags: :bib:facebook:
#+identifier: 20240717T144215
#+reference: humbert2017quantifying
Mise à jour de [cite:@humbert2013addressing] avec
1. utilisation des phénotypes
2. modèle mise à jour avec : >= 1 génome connu et on veut >=1 génome
* Résultats
Phénotype:
- testé sur un trio avec 2 SNPs d'APOE
- resultat intéressant : si les parents ont alzeimer mais pas le SNP, augment l'erreur car cela induit l'attaquant en erreur
- pour groupe ABO, on peut avoir 0 d'erreur...
#+title: De-anonymizing genomic databases using phenotypic traits
#+date: [2024-07-17 Wed 14:41]
#+filetags: :bib:facebook:
#+identifier: 20240717T144158
#+reference: humbert2015anonymizing
NB: article pas toujours bien écrit (on se demande plusieurs fois ce qu'ils font)
Principe : attaquant a une liste de SNP et une liste de phénotype de la cible
- génotype : 1000genome, opensnp, hack bdd
- phéontype : réseaux sociaux, hack bdd
Les AF de la population doivent être connus
2 types d'attaque
1. identification: à partir d'un phénotype d'une cible, identification du génotype par N génotypes
2. perfect matching: si on a les données génomique et phénotypique de n individus, on veut les faire correspondre
Une fois le génotype connu, évaluation de la susceptibilité à Alhzeimer (2 SNPs a priori)
2 modèles
1. non-supervisé : une correspondante phénotype -SNP est connue (SNPeida)
2. supervisé : idem mais stats sur totue la population (openSNP)
* Résultat
Données OpenSNP 2014 (génomic + phénotype)
80 participants
| Cible | Modèle 1 | Modèle 2 |
|-------+----------+----------|
| 1 | 5% | 13% |
| n | 8% | 16% |
Susceptibilité à Elzheimer: On a l'inaccuracy donc on fait la déduction
| Cible | Modèle 1 | Modèle 2 |
|-------+----------+----------|
| 1 | 84% | 95% |
Je ne retiens que les génotype à 80 : c'est le pire cas mais le plus réaliste
#+title: Addressing the concerns of the lacks family: quantification of kin genomic privacy
#+date: [2024-07-17 Wed 14:41]
#+filetags: :bib:facebook:
#+identifier: 20240717T144145
#+reference: humbert2013addressing
* Définitions
Linkage desequilibrium = corrélation entre paries de SNP -> on peut inféreur la position d'un SNP à partir d'autre
Belief propagation : calcule des distributions marginale de variables non observées vs opbséervé
- cette technique utilise un graph bipartite (une partie des noeuds = variables d'intéreête et l'autre les fonction , une arête correspond à un argument d'une fonction))
- permet d'avoir une bonne approximation (le calcul est exponentiel sinon)
* Objectif
Inférer des SNPs d'une cible dans une famille ciblée
L'attaquant connaît
- les SNP d' >= 1 apparente
- la généalogie (réseaux sociaux...)
- les lois mendelienne de tranmission des SNPs entre père, mère et fils
- les MAF des SNPs
- une matrice des linkage disequilibriam entre SNP
* Métrique
- correctness = Distance entre SNP estimé et vrai SNP
- incertitude = entropie des probabilite
*
* Résultat
** ADN partiel de 17 apparente CEPH UTA
On utilise 5 enfants sur les 11 (pour être dans la moyenne et cela n'augmente pas la force de l'inférence et peut limiter convergence)
80k SNP sur chromosome 1
erreur estimée :
- sans LD: 0.3 pour grand-père, 0.05 pour le père, 0.2 pour fils
Avec 50SNP
- avec LD amélioré: 0.2, 0.05, 0.05 resp
** Famille pour 6 personne (OpenSNP + facebook)
2 individus identivié, 11 et 9 apparentés retrouvés respectivement
Même emsure:
- chr1 Incertitude entre 0.65 et 0.55
- 50SNP: incertitude plus éleevé 0.73-0.58 environ
#+title: Inference Attacks and Controls on Genotypes and Phenotypes for Individual Genomic Data
#+date: [2024-07-17 Wed 14:41]
#+filetags: :bib:facebook:
#+identifier: 20240717T144112
#+reference: he2020inference
Même framework que[cite:@humbert2013addressing] & co
Attaquant a
- SNP
- phénotype
- matrice de corrélation SNP-phénotype
Prédiction phénotype + SNP
Méthode:
phénotype-SNP donné par GWAS
Données: Age-related macular degeneration dataset (90K SNP de 96 cas et 50 contrôles)
Résultats:
Ajout de 7 maladies-> erreur 0.45 et 0.5
#+title: Identifying Personal Genomes by Surname Inference
#+date: [2024-07-17 Wed 14:40]
#+filetags: :bib:facebook:
#+identifier: 20240717T144049
#+reference: gymrek2013
Identité de génomes en utilisant une inférence sur le nom de famille avec information publique
Source. ysearch.org (n'existe plus) et smgf.org (existe encore)
Avec des STR sur de chrX, on a les noms de famille, information géographique, génélaique.
~39k nom de fammile unique et 135k entrées en 2013, surtout US.
Test: 911 individus aux noms de famille connu, 34 marqeurs.
Algorithme pour inférer le nom de famille : ~12% succès
Avec date de naissance et État, médiane de 12 résultat
STR extrait de données illuminée avec lobSTR.
Test sur 21 génome d'home dans le 1000Genomes et en Utah -> mauvaise qualité sur Y, 10 génome sélectionné -> 5 identifiés
Utilisation des odnnées sur corielle, recherche internete, obituiaris, généalogiqe
~3-7h pour une personne
Identification des familles
* Conclusion
Identification de 5 individus par 10 génomes 1000projects CEU (37 marqueurs STR sur Y)
#+title: Privacy in pharmacogenetics: An $\$End-to-End$\$ case study of personalized warfarin dosing
#+date: [2024-07-17 Wed 14:40]
#+filetags: :bib:facebook:
#+identifier: 20240717T144036
#+reference: fredrikson2014privacy
Inversion de modèle : à partir d'un modèle prédisant le niveau de warfarine, peut-on retrouver des caractéristique des patient
Contexte: CYP2C9 et VKORC1 président 54% variabilabté dosage warfarine avec age et taille
Input:
- accès au modèle entraîné (boîte noire)
- dosage warfarine de la cible
- domaine de dosage
- accès aux proba (pas claires lequelles)
- et
- phénotype partiel de la cible (âge, ethnie, taille, poids de la cible)
- OU tout le phénotype
Output: prédire un SNP sur CYP2C9 et un SNP sur VKORC1
* Validation
entraîné et validé sur donnée IWPC (coupé en 2)
précission (= % d'échantilon bien prédit) et aire sosu la courbes (tient compte des distribution déséquilibrées)
résultat
VKORC1 précision ~18% et aurie sous la courbe ~26 (pire cas)
CYP2C9 0 et ~5 environ
*Attention* je n'ai pas vu de trace où ils regardaient le phénotype, on a juste le génotype
#+title: Identity inference of genomic data using long-range familial searches
#+date: [2024-07-17 Wed 14:40]
#+filetags: :bib:facebook:
#+identifier: 20240717T144021
#+reference: erlich2018
* Contexte
test génétique "direct-to-custom": ~700k sondes. Utiliseurs ont leur génotype brut en texte simple.
Sur différents site (GEDmatch), on peut uploader ce fichier. Notamment pour trouver les parents avec des segments "identity-by-descent"
- segment identique par rapport à un ancêtre commun sans recombinaison
Fonctionne m^ême pour 2e ou 3e cousins.
Utilisé pour des cold case (13 cas en 2018 !)
* Probabilité de trouver un apparenté
Base de 1.28 millions d'individus avec un de ces tests
- filtre : on garde les apparentés avec 2 segments > 6centimorgant (1centimorgan = 1% de chance de séparation après recombinaison pendant la méioise)
- filtre: on enlève segment > 700cm (suppression des parents proches)
Algo
1. proba que l'individu cible et celui de la base de données soient apparentés
2. probab que ces 2 individus partagent suffisament de segment IBD pour être détecté par l'algorithme d'appariement
3. probab de trouvée >= t individus apparisé dans une base de donnée de R personnes
Résultat:
- 60% des recherche ont des segments >= 100cM ~ 3e cousin (arrièore-arrière-grand père en commun) ou plus proche
Marche mieux que l'inréferenc du nom de famille sur l'Y
- 15% ont >= 300cM (2e cousin ou moins)
Méthode validé sur 30 recerche aléatoire dans GEDmatch: >_100cM dans 76% des cas pour les meilleurs résultats
Avec modèle simplifié, il suffit de couvrir 2% de la population avoir avoir un 2e cousin (mais correspond aux réslutat empiriques)
* Probabilité de trouver un individu après apparenté
Filtres
- < 160km de la position cible : exclu 57% candidats
- filtre sur l'âge cible +/- 5 ans : exclu 91%
- filtre sur le sexe cible : 16 à 17 individus -> ok pour manuel
* Test sur 1000 genomes
Parmis les CEU : sélection d'une femme (mari indentifié par inférence sur le nom) ->_génome extrait de 1000genomes, formaté pour ressemblé aux résultat de kit et uploadé GEDMATCHE.
2 aparents renolvyé probablement 6 à 7 degrées séparations. Relié par un coupe acenstrato -> 1h de travail pour l'identifié.
Puis recherche des descandant de ce couple qui sont dans le 1000genomes -> 1 jour de travail.
Identifiaciton cible
* Conclusion
À partir de 700k SNP, les sites styl GEDmatch permettent de retrouver un individu aux USA de descendance européen
#+title: Major flaws in “Identification of individuals by trait prediction using whole-genome sequencing data”
#+date: [2024-07-17 Wed 14:40]
#+filetags: :bib:facebook:
#+identifier: 20240717T144006
#+reference: erlich2017major
Réfutation de [cite:@lippert2017]
Avec age, sexe et ethenie, identification semblable
Limites:
- la ré-identification utilise surtout l'héritage et le sexe plutôt que des données
- ex: taille : la plupart de la taille est due à lau sexe
- âge est une bonne chose mais il faut séquencer 512 (!) fois un échantiollon pour le prédit
- non testé sur 1000genomes
#+title: Routes for breaching and protecting genetic privacy
#+date: [2024-07-17 Wed 14:39]
#+filetags: :bib:facebook:
#+identifier: 20240717T143951
#+reference: erlich2014
Stratégies : définition, concepts, performances et limitations
Méthode avec data mining + combinaison resources distinctets
* Identity tracing attack
= identifier un échantiollon d'ADN avec des /quasi-identifiers/ (infomation partielle contenue dans les données)
** Métadonnées
date de naissance, sexe et les 5 chiffres du code postal identifie de manière unique > 60% américains
Nombreuses base de données liants ces quasi-identifiants à des individus (vote, peoplefinder),
Exemples de généalique : même avec le nombre d'individus seulement, ~30 étaient uniques sure une ville de 60k habitants aux US...
Si on a l'âge et l'état de résience, avec les apparentés de 1er et second degrée, on diminue fortemente les possibilités
Une fois un individés identiifés, beaucoup plus facile.
Principale difficulté = recherche difficilbe (non dipsoible publement)
** Genealogic trianglutaion
Explotation de données généalogiques + gsénétique
chromosome Y et surname inférence : voir [cite:@Gitschier_2009] ,
[[id:6b6506f8-dd5a-4c44-bdad-8cb1030825fd][Inférence sur le nom de famille]]
** Phenotypic prediction
PRincipe = prédire le phénotype des données génétique -> sert à identifier
Limite: la génétique explique une petite portion de la variabilité phéhonytpique (ex: 10% de la taille)
Couleurs des eyes et âge possible mais seulement 3-4bits d'information.
Et difficile à chercher (pas de registre)
** Side-channel leaks
Données encodées par erreur, exemple du noms de famille dans le fichier de PGP...
Mais attentions aux fichiers dérivés de microsoft office
Le numéro d'identification doit être randomisé sinon on peut avoir des informations intéressantes (corrélation spatiale et temporelles qui aurait permis de prédire les numéro de sécurité sociale aux États-Unis, citation 58)
* Attribute disclosure avec ADN
Principe: à partir de l'ADN, on cherche des base de données génétiques avec données "sensibles" (ex: utilisation de drogues)
** n=1
si les données sont directement associées aux génotype, il suffit d'un petit nnombre de SNPs (45 bien choisis pour erreur de 10^15, 300 au hasard)
GWAS sont particulièrement exposé
** Données résumées
- exemple des fréquences alléliques = pour les variations très rares, une fréquence positive dans une étude augment la probablement que le sujet faisat parti de l'étude.
Avec des SNPs, on peut aussi le faire sur les GWAS. Étute
- note : exemple de GWAS pour schizophrénie avec un attaquant qui prend des ADNs au hasard dans les États-Unis: étude de petite taille -> puissance et spécficité intéressante. Si l'étude est tropi petit, il ne trouvera quasiement pas de participant. Les performences sont amélioriées si on filtre la population échantillionée par l'attaquant (ex: ethnie, géographie)
- on peut aussi les allèles assez rares co-uccurent sur des black d'haplotype différent (créant ansii un évèoenement rare) -> /linkage desequilibrium/
- en utilisant des GWAS qui se basent sur les même données, on peut raffiner le phénotype (intersection)
Impact probablement faible car il faut l'ADN de la victime
** Expression génique
Base de données https://www.ncbi.nlm.nih.gov/geo/
Méthode:
- trouver les "expression quantitative trait locus" (locus génétique qui explique la variation dans l'expression d'ARN)
- apprendre les distributions des profil d'expression par génotype
- ensuite, on scane la pase de données et pour chaque locas, on calcule la probablié d'un génotype
- enfin on match avec le génotype de la cible
Limite:
- efficacité maxmial sur même tissus,
- performance diminué ave
* Completion
Accès partiel à l'ADN mais exploitation de /linkage desequilibrium/ sur des marqueur pour reconstituer l'information
Exemple du locus APOE masqué mais dont on pourrait retrouvé l'information avec des marqueurs autours (citation 77, génome du Dr James Watson)
Possible sans accès direct à l'ADN de la cible ! (il faut généalogie + génétique)
- si données génétique d'1 apparent: on estime la prédispositon génétique des parents (ex: alzheimer) en utilisant une recherche facebook. Site utilisé opensnp.ong
- si données de plusieurs apparentées, il faut prendre un lien de parenté unique et identifier des segments en commun avec la cible. Ex: decode en Islande qui a trouvé des variants de 200k individus en plus !
* Mitigation
Non lu
#+title: Epigenome data release: a participant-centered approach to privacy protection
#+date: [2024-07-17 Wed 14:39]
#+filetags: :bib:facebook:
#+identifier: 20240717T143917
#+reference: dyke2015epigenome
Contexte: réidentification des participants par correspondance sur l'ADN = "attribute disclosure attacks using DNA"[cite:@erlich2014]
Ici: peut-on *ré-identifion donnée = attributer à un individu en faisant correspondre information génétique identifée à données anonymisée*
Anonymisation totale impossible pour ADN mais donnée épigénomique plus facible
* Données épigénétiques
Principe du whole genome bisulfite sequence = reporte CpG méthylé et non métholyé cytosine
** Informatino génétique dans données de méthylation
Principe : variant qui va perturber la méthylation -> différence entre les 2 brins
Identification de CpG génomique où la methélytaion est du à un variant génétique -> a priori 39k sites qui ont > 98% predictive accuracy et correspondent à un SNP connu
En pratique, on peut supprimer ces îlots perturbés par SNP sans perdre peaucoup d'information.
Limites (cf conclusion) mais on peut utiliser des masques
* Metadata
nomenclature HPO enlève certains détails trop spécifique lié au patient mais il faut parfois du texte libre
Pour maladies rare, date de naissance et endroit de résidence peut conduire à rédentification
Si syndrome cliniques, possible stigmatisation
#+begin_quote
1 Is the place of residence provided (even indirectly, for example, in the project name)?
2 Is the rare disease outwardly visible?
3 How rare is the disease?
4 Does the rare disease provide information about the likely geographical location of individuals?
5 Does the rare disease provide information about ethnicity that may be considered potentially stigmatizing?
6 Was the participant aware of the potential risks of data re-identification?
#+end_quote
* Conclusion
- [cite:@erlich2014] on peut retrouver l'identité d'un individé mais il faut dans la majorité des cas données génétique d'une autre source
- Cas spéciaux: exemple du chromosome Y [cite:@Gitschier_2009]
- RNA: complexe pour retrouver
#+title: An Inference Attack on Genomic Data Using Kinship, Complex Correlations, and Phenotype Information
#+date: [2024-07-17 Wed 14:39]
#+filetags: :bib:facebook:
#+identifier: 20240717T143901
#+reference: deznabi2018inference
Méthode très proche d'[cite:@humbert2013addressing]
Attaquer a accès à
- données génomiques partielle individus (publiques)
- phénotypes
- données de santé (publique)
- généalogique
* Objectif
retrouver les partie manquant du génome
* Méthode
Exploite généalogique, probab phénotype-génotyque, relaction maladies-génomique et corrélation génome avec modèle de recombinator
Utilise un algorithme de belief propagation
* Métrique
Idem [cite:@humbert2013addressing]
- incertitude (entropie sur SNP ) mais il faut les vrais positifs
- incorrectness
* Données
CEPPH/UTAH
- SNP au format VCF
- 11 individus ici
- 100 SNP proches, sur chr22
- MAF
- corrélation (1000 genomes projects)
Manuel corpas
* Résultats
CEPH
- 0.15 et 0.2 incertitude
- erreur 0.11 et 022
MC
- incertitude entre 0.1 - 0.3 selon indivift
- erreur 0.28 et 0.3
#+title: Overcoming challenges and dogmas to understand the functions of pseudogenes
#+date: [2024-07-17 Wed 14:38]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T143843
#+reference: cheetham2019
- pas d'info sur la partie pipeline
- attention à la définition d'un pseudogène (privilégie rétrotransposition et gène duplication ?)
- on découvre de plus en plus de fonction de pseudogène (intérête de l'article)
* Notes
Définition: régions semblable à un autre gène et défectueuse.
Classification par mécanisme
- "processed" : transcription inverse et intégration de l'ARNm
- "unprocessed" : à partir de [[id:c88ff729-d478-4e8d-82b9-bd6cc186b489][Duplication segmentaire]]
- unitary = inactivation d'un gène à partir de mutations
- (rare) mutation inactivatrice dans le génome de référence mais intact chez certains individus
GENCODE: ~10k pseudo gènes, soit 72%
Processed pseudogene = important dans l'évolution -> au mçoins 48 "processed" pseudogene polymorphique
#+title: Deterministic identification of specific individuals from GWAS results
#+date: [2024-07-17 Wed 14:38]
#+filetags: :bib:facebook:
#+identifier: 20240717T143830
#+reference: cai2015
Attribute disclosure
Hypothèse : l'étude a publique
- pour chaque génotype, la fréquence et la corrélaction avec maladie (p-value)
- une matrice corrélation génotype-génotype
* Méthode = inversion du processus d'aggrégation
1. matrice de co-occurence (nombre de fois que g1-g2 a été vu)
2. matrice de "preuve" -génotype (ensemble de sous-séquence des génotype = caractéritisque tu génome d'un individu)
3. pour le génotype da la cible, regarde s'il est dans cette matrice
* Résultats
** Données simulées
8 études de TWCCCC sur 394k loci. Le nombre de patient est entre 1400 et 2000 envirson par étude.
Simulation de 7 GWAS avec NBS comme contrôle
14 génotype sur 75 trouvent des motifs unique dans 1% des cas. N'identifie pas les cas de la population de référenc !
Nombre de cas ré-dentiifé augmente avec le nombre de génotypes
** données publiée
36 génotype disponible: 12 personnes
#+title: P-GRe: An efficient pipeline to maximised pseudogene prediction in plants/eucaryotes
#+date: [2024-07-17 Wed 14:38]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T143813
#+reference: cabanac2023p
Pipeline pour pseudogène mais sur les plantes
Le plus récent. Github: https://github.com/sebc31/P-GRe
Code non documenté marqué "WIP"
Input: génome et annotation GFF
Output: séquence génomique des pseudogène + pseudo-coding sequence
* Contexte
15% des pseudogène sont transcrit chez la souris
et peuvent modifier la régulation post-transcription (RNAi)
* Bibliographie
Logiciels existants se base sur l'homologie entre les séquence protéique connue et les séquences de pseudoègen
- alignement des séquences protéiner pour avoir une position apporximation des pesudoègen
- celle avec la plus haut similarité = encodé par le gène parènt (hypothèse : duplication de gènes fonctionner)
- alignemet plus fin entre les hit et les séquences parents
Ex : [cite:@zhang2006pseudopipe], zhou 2009 https://academic.oup.com/plphys/article/151/1/3/6108462
Plusieurs sont spécifiques à un organisme :
- prokaryote [cite:@syber2022pseudopipe] , psi-phi (lerat 2004)
- à partir de rétrotranspotion de transcrit [cite:@van2006ppfinder] ,[cite:@abrahamsson22ppsifinder]
Ceux qui travaille sur tous les organismes sont rares et produisent ldes résuiltants différent (protéine apporochée vs séquence pseudogene
Avantagase: pas besoin d'une base de protéine
* Méthode
1. Position approchée de pseudogène
- GFFRead pour générer le protéines depuis génome et GFF
- protéine alignée sur le génome (tblastn) : les alignements sont filtré + sélectionné
2. Prédiction de la structure des pseudogènes
1. frameshift: quand 2 alignement d'une protéine se recouvrent avec overlap non divisible par 3
les 2 peptides correspondant à l'overlap sont décomposé en "chimère" (on enlève un acide aminé à la fois) qui sont aligné sur la protéine code par le parent -> celle avec le meilleur alignement est retenue
2. pour gérer les quelques bp manquantes au début du pseudo-exon, les alignement sont étunde jusqu'à l'alignement suivant. (~ pseudo-introns). Correction de faux alignements
1. marqués par un processus dit pseudo-Lindley
- principe: score incrémenté tant que l'acide aminé est aligné, -1 sinon (min = 0, max = 10)
- permet de définir les introns
- les acides aminés encodé par le peusodogène qui s'aligne avec al protéine parente dans un intro sont flaggés comme mal aligné
2. Correction de ces acide aminé mal aligné avec le GFF
3. Recherche des sites d'épissages GT/AT cannonique à +/- 9bp au début et à la fin des introns pour raffiner
3. recontruction des extrémité N- et C-terminale
1. les positions codons start et stop sont connues avec l'alignement local
2. pour les codon start, on cherche donc un codon start (ATG) ou dégénéré (1 subsitution dans ATG). Si non trouvé à la position attendu, on se déplace vers le premier pseudo-codant exon
3. Idem poru codon stop mais vers la fin ddu pseudo-exon
4. Fusion des pseudogènes séparés de moins de 2.5kb et sans codon stop terminal (permet de reconstruire ceux avec des exons différents qui correspnodt à des protéines parentes proche, + pseudogone chimérique)
** Catégorisation
- copie complète du parent ou seulement fragment
- type : chimérique, dupliqué, rétro)
* Résultat
Méthod: A. thaliana
Sensibilité en considérant que le pseudogène est trouvé si >= 60% longueur overlap (même métrique que pour [cite:@zhang2006pseudopipe][cite:@ijms17121991] )
Qualité : alignement des pseudogene avec blastp sur protéome. Pour le meilleur alignement, la séquence protéique a été alignée "semi-globally" avec la séquence protéique du pseudogene (pairwise2) -> score d'alignement
84.3% (légèrement supérieur à [cite:@zhang2006pseudopipe] )
Meilleur qualité que ceux annotés apparement
#+title: Blueprint Genetics’ approach to pseudogenes and other duplicated genomic regions
#+date: [2024-07-17 Wed 14:38]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T143802
#+reference: blueprint2020
Important car
- duplications segmentaire peut être confondu avec régions "parente" en shortread
- aligmement compliqué (on peut perdre des reads)
- faux-positifs (variants du pseudogène aligné par erreur dans le gène parent)
- faux-négatif (variants du gène aligné par erreur dans le pseudogene)
- amorces Sanger difficiles à dconcevoir
>10k pseudègen (GENCODE). Liste sur ce site https://blueprintgenetics.com/pseudogene/
Homology 90-98% OK mais devient difficile> 9-%
Régions du génoèmes masquéee (not. duplication segmentaire)
Approche blueprint
- kit capture adapté
- pipeline maison
- seuls les reads avec qualité d' alignement >= 20 sont considéré
- confirmation en sanger
#+title: PΨFinder: a practical tool for the identification and visualization of novel pseudogenes in DNA sequencing data
#+date: [2024-07-17 mer. 13:50]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T135037
#+reference: abrahamsson2022ppsifinder
Classification :
- unitary = dévire d'un gène codant pour une protéine qui ne code plus pour une protéine suite à des mutations spontanées
- upnrocessed = duplication avec accumulation -> traduction impossible
- processed = rétrotranspotition et intégration d'aun ARNmessage)
- pas de promoteur 5'
- mais queue 3' polyA (attention certains n'en n'ont pas)
Scope
- seulement processed pseudogene
* Biblio
- approche basée sur homology (GWAS)
- non disponible ou utilisent des outils abandonnées
- pseudopipe [cite:@zhang2006pseudopipe]
- retrofinder [cite:@baertsch2008retrofinder]
- ppfinder [cite:@van2006ppfinder]
- [cite:@cooke2014processed] : somatique : aligne data sur génome et transcriptome mais non disponible
- sideretro [cite:@miller2021sideretro] avec génome et transcriptome de référence, détecte insertion processed pseudogene (de novo somatique + insertion polymher). Algorithme = clustering "density based
* Algorithm
1. Alignement avec STAR
2. Sélection des candidats : spliced reads sur des jonctions exons-exons
3. Sélection des sites d'insertion : on extrait
- les paires chimérique = un read sur la zone d'insertion et un read sur la zone codante. En pratique, on sélectionne les paires qui sont alignés sur des chromosomes différents ou à des distances plus grandes qu'attendu
[[file:~/org/papers/ppsifinder-spliced.png]]
- les reads chimérques = ceux qui sont à la jontion insertion-zone codante. En pratique, les reads soft-clippés qui sont alignés à 2 endroits différents
[[file:~/org/papers/ppsifinder-chimeric.png]]
3. L'intersection des 2 donne le résultat
* Validation
218 échantillons (sang)
panel 28 gènes de cancer
423 processed pseudogene détecté sur 209 échantillons (manque 9 ??)
moitié intronique, moité intergénique (1% dans un exon)
Note: détection des sites d'insertion n'a pas besoin d'avoir les paires *et* reads chimériques mais les 2 augmente la fiabilité
Sélection de ceux avec les 2 inseréré dans exon ou intronique -> CBX3 et SMAD (pseudogene) -> validé en sanger
** CBX3
chimèrique avec C15ORF57 en RNASeq sur lymphoblaste (+ autres tissus)
Ici, étude des breakpoint prédits de ces 2 génes
Résultat: insertion unique et duplication sur l'un des points de cassure mais rien sur autre
Inséré de manière inversé dans la même orinetation qu C15ORF57 -> gène de fusion possible
** SMAD45
Impac clinique car perturbe diag (cancer pancrétaique notamment)
Sur 1 point de cassure : délétion 3bp
sur l'autre : queue polA et dup de 4bp
** Étude de la profondeur
Downsampling sur les 4 échantillons validé en sanger -> il faut >= 144X
** Performances
Sur données simulées avec wgsim
* Performances (github)
Sur le panel ci-dessus, couverture de 500x : ~50min pour le script sans alignement, 2G
* Code
https://github.com/SannaAb/Pseudogenes
Dépendences : python, (STAR), Bedtools, R ( pour les plots), samtools
Note: peut travailler sur le BAM directement d'après la doc donc on peut se passer de l'aligement
#+title: Inferential Genotyping of Y Chromosomes in Latter-Day Saints Founders and Comparison to Utah Samples in the HapMap Project
#+date: [2024-07-17 mer. 13:50]
#+filetags: :bib:facebook:
#+identifier: 20240717T135015
#+reference: Gitschier_2009
données:
- données génétiques des échantillons CEU = habitant d'Utha avec ancentre Europe nord et ouest (180) -> donées chromosome Y
- familyseach (généalogy)
- SMGF (génetoype+ généalogique
méthode: détermination de l'haplotype du fondateur (Joseph Smith) en cherchant tous les chromosomes Y (recherche des allèles "à la main"))
Pas de descendant direct sur SMGF mais de ses frètes et cousins
20/30 haplotype de ChrY correspondent exactementy a >= 1 indivivu SMGF
- dont 3 ancêtre en dehors US
- 17 ont >= matched ancêtre famille fondatrice
40 marker STR -> a priori 17 semble suffir
* Conclusion
30 STR sur chrX pour détecter noms de famille potentier mais pas d'identification à la personne près
#+title: Retrocopy contributions to the evolution of the human genome
#+date: [2024-07-17 mer. 13:48]
#+filetags: :bib:pseudogène:
#+identifier: 20240717T134813
#+reference: baertsch2008retrofinder
Code récemment uploadé sur github https://github.com/ComparativeGenomicsToolkit/RetroFinder
Parmis les rétrocopies (ARN messagé épissé dans le génome), étude des rétrogènes (=rétrocopies fonctionnelles)
Méthode :
- Alignement de tous les ARN messager sur le génome humain
- score pour la probabilité d'une rétrotransposition récente (nombre d'introns, l'absenc de site d'épissage conservé...)
- comparaison avec Vega pour le score
- filtre >= 5 ESTs et 1 ARNm ou 1 gène dans refseq ou UCSC
Types d'évènement
1. acquisition d'un exon (inclus dans un transcrit existant)
2. duplication d'un gène (nécessite le recrutement de région régulatrice)
3. nouveaux gènes : contribution d'une séquence en dehors du cadre de lecture (UTR, sens oppés)
4. 12k candidats pour gènes dérivés rétropcopies dont 726
#+title: Automatic annotation of eukaryotic genes, pseudogenes and promoters
#+date: [2024-07-16 mar. 17:17]
#+filetags: :pseudègene:psf:bib:
#+identifier: 20240716T171712
#+reference: solovyev2006automatic
Code source : non disponible ? on a une version linux mais en essai et sans PSF ? https://www.molquest.com/molquest.phtml?topic=downloads
Workshop de prédiction de gène organisé par Encode
- pipeline Fgenesh++ = identifie 91 nucléotide codant (spécificité 90%)
- PSF = programme de Softberry pour trouver pseudogène : trouve 90% des pseudogène annoté manuellement
- test : référence de 145 pseudègen HAVANA -> 81% retrouvé
Algorithme
1. détection de gène (ici Fgenesh++) : pour un ensemble de séquence protéine, on sélectionne les meilleurs résultats par protéine mappé -> pargen
2. candidats: pour chaque protéine
1. alignement > seuil
2. portion siginficative de la séquence poroténie
3. alignement différent du gène parent
4. au moins un évènement parmi :
- atteinte ORF (>= frameshit ou codon stop)
- un seul exon avec site poly-A (site poly-A trop proche d'une extrémité 3' d'un alignement mais l'extrémité de la séquence protéique est alignée sur le dernier acide aminé et un exon couvre 95% séquence protéique)
- perte d'introns (couverture après alignement >= 95% et moins d'exons que dans le parent)
- séquence protéique non conservée (ratio remplacement non-synonyme/synomique > 0.5 (par rappor taux parent, calculé selon un article)
#+title: PseudoPipe: an automated pseudogene identification pipeline
#+date: [2024-07-16 mar. 17:08]
#+filetags: :article:bib:
#+identifier: 20240716T170853
#+reference: zhang2006pseudopipe
Code http://pseudogene.org/DOWNLOADS/pipeline_codes/ppipe.tar.gz
Algorithme
- input: génome (sans région répétée), ensemble des séquences protéiques et coordonnées des gènes fonctionnels
- output: annotation des pseudogène
1. identification des régions similaire avec une protéine (BLAST)
1. suppression des overlap >= 30bp avec gènes fonctionnels
2. suppression des doublons (segment avec plusieurs résultat du BLAST)
1. Si mêm protéine, cela est du au fait que BLAST casse des longues séquences homologues en fragments courts
2. sinon, cela est du à des protéines/domaine protéique homologues
Partionnement en résultats disjoints. Parmi ceux-ci , on supprime ceux qui sont complètement contenu
3. Dans un ensemble disjoint, on fusionne les différents résultats BLAST.
Puis, parmi les ensembles adjacent qui correspondent à la même protéine, ils appartiennent au même pseudogène en fonction de la distance entre les résultats et la distance à la protéine
Les trous entre les hits peuvent venir
1. de zones non considérées par BLAST (faible complexité ou détériorée)
2. petit ADN inséré
3. séquence intronique dans les pseudogene dupliqué
4. éléments répété
4. Paternité des pseudogènes : déterminée parmi les protéines paralogues en se basant sur
1. similarité des séquence "
2. meilleur e-value
3. longueur de la protéine (cela suppose que le pseudogene est plus proche du gène parent original)
Note: alignement amélioré avec tfasty en considérant la zone d'un pseudo-exon + 3*bp
Python
#+title: Evolutionary and expression signatures of pseudogenes in Arabidopsis and rice
#+date: [2024-07-16 mar. 17:08]
#+filetags: :article:bib:
#+identifier: 20240716T170819
#+reference: zou2009evolutionary
Idem [[denote:20240716T170853][PseudoPipe: an automated pseudogene identification pipeline]] sur principe
[[https://github.com/ShiuLab/PseudogenePipeline][Code sur github]]
Riz et plante (arabidopsis)
Méthode d'identification : basé sur [cite:@zhang2006pseudopipe]
1. identification région intergénique similaire à des protéines connues
2. régions répétées masqué
3. pseudoexons fusionnées en contigs
4. fitre sur qualité
5. identification des caractérisitque coupant les séqunece proétique
6. différence ci rétro- et non-rétro
et stats
#+title: Pseudogenes and Their Genome-Wide Prediction in Plants
#+date: [2024-07-16 mar. 16:58]
#+filetags: :article:bib:
#+identifier: 20240716T165859
#+reference: ijms17121991
2016. Comparaison de 3 pipeline ici: pseudopipelie shiu et PSF
* Contexte
Image avec 3 catégories
- processed (ou retro): transcrit ARNm puis transcription inverse et intégré dans le génome
- duplicated : duplicaiton d'un gène fonctionne + acquisition mutation délétère avec au final perte capacité à code une protéine
- unitary (gène accumule mutations) : perte de fonction mais sans duplication
Il faut y ajouter les pseudègen fonctionnels
| Processed | Duplicated |
|-------------------------------------------------+---------------------------------------------------------|
| Pas d'intron ni promoteur | Promoteur, exon-intron, structures régulatrices en amon |
| queue polyA en 3' | pas de queue polyA en 3' |
| "direct repeats" adjacente site d'insertion | non |
| emplacement différent du parent le plus souvent | parfois avec parent |
| tronqué en 3' ou 5' | Tronqué 3' |
| Souvent plus court | Sovuent plus long |
Humain: 82% des pseudogène du chromosome 22 sont rétrotransposition , plus rare plante (23% pseudogène riz))
Utile pour étude évolution
** Prédiction
"Non-fonctionnalité" est difficile à valider et ne fonctionne pas pour tous les gènes.
Approche prédominante basée sur
1. l'homologie entre un pseudogène et un vrai gène (parent/fonctionnel)
2. mutation déléteère
3. défaut intros
Difficulté d'obtenir un ensemble de gènes parents
- utilisation de protéines fonctionnels, par ex. à partir d'ENSEMBL
- annotation de "qualité" à partir de logiciels (mais peusdo-gene possible). Les auteurs conseillent FGENESH [cite:@solovyev2006automatic]
- pour enlever les pseuodgène
- utilisation de transcripts (majorité ne le sont pas) avec annotation ARNm
- riz : seul les gènes "de confiance"
-
* Bibliographie
NB: erreur de ref pour retrofinder
- ppfinder [cite:@van2006ppfinder] : ADN codange pour déterminer les gènes parents puis utilisation des parents pour décteurs les locus sans intros
- pseudofinder [cite:@zheng2007pseudogenes] (ne pas confondre avec [cite:@syber2022pseudopipe] ) homologue de gène fonctionnels : classification par analyse BLASTz -> non dispo en ligne ?
- rétrofinder [cite:@Baertsch_2008] : alignement ARNm (Genbank) sur génome (BLASTz), détection de caractéristiques biologisue, pondération heuristique
- GIS-PET: pas un pipeline (et pas de BLAT dans l'article ?)
- pseudopipe [cite:@zhang2006pseudopipe] : à partir de la séquence protéique, on trouve les pseudogène dans les régions intergénique marqué par des repeat. Puis éralignement pour valider
- pipeline de shiu (sic) [cite:@zou2009evolutionary]: idem pseudopipe
- PSF [cite:@solovyev2006automatic] idem pseudopipe
* Algorithme (en général)
1. Détermination d'un ensemble de gène parent: les auteurs ne dient pas comment eux on fait...
2. Dans le génome, on masque les régions répétées et gènes
3. tBLASTn (filtre read redondants) -> candidats dans régions intergénique en se basant sur homologie
4. alignement des candidats sur parents
5. vérification intron, queue polA
* Comparaison des pipeline
- Arabidospi thaliana
- 4108, 3531 and 801 pseudogenes were predicted by PseudoPipe, Shiu’s pipeline and PSF
- validé si > 60% pseudogène connu (924 sont connu sur cette plante))
- per f: 81.3%, 78.9 et 6.0% resp -> améliori si on suppriment UPG
#+title: The risk of re-identification versus the need to identify individuals in rare disease research
#+date: [2024-07-16 mar. 16:21]
#+filetags: :bib:
#+identifier: 20240716T162106
#+reference: hansson2016risk
Faux espoir pour le côté technique mais utile pour introduire.
À lire