A4OZ7BGTCT5I5QGFYDDIVWW6BGGRZSWIZYL4RNZCXZXSSJ47CCVAC
C7HSBZSCGOVSLP4NIGQARY4RUETIGBDCDURS6Z6MVUEZXGOYNHVQC
2QF7HCG5CLNOBSZUKSHRI2MR4FHHXWY22ZP7JMWD52ZSO2LO2DLAC
Y2SHXHEPVYTZSL3ZW222W7E76VCBHEVZLFLPAMW6Y5CKAHPK6RPAC
2IRTROMV2BQOAI4DM56ZNQAM4NJ7ZJROTJEMKED4JUJMCGYCO2JQC
EXXDISQ3I67ZY3JZP7BFBDXLHLL5YIPQMXYMN4IPTNYJFOFPLOPAC
U7LWAQW5JKLDCF3HTNGFRJLHVG4OFA4Z4S5WH7CI4N4VOD7SHC5QC
3VM6J76YL2X3BM2BVN6TNE4H5XIWBPEX7OCVKYK2SLAOOYUDSPOAC
XPVVISXCZTDNHTWH63VBGGNBYPB35DJAMR6J46WKNFP7P53SXBRAC
VF7UKNIF73KICCJULRNI4TBTFIRQDFXIP2SEFXPK7NX5H3B4XMCQC
EB3SW4AXBZVP7YKCIKN26GGIGW7DUOMRNMDKF7ZTTMAUNYWB5W7AC
MTS2DOVSHFULFWHKHJ4XJNI2NWXMQCT45ZEAWYMAXNHYELJOHDKAC
#+title: Auradb
#+date: [2024-08-09 ven. 14:18]
#+filetags: :auragen:
#+identifier: 20240809T141850
Couch prod aurapport -> auradb-mr -> chercher par ID de gène HGNC
[forextraction formasking forvarcall homologousexons] | each {|e| ./liftOver $"All.($e).noalt.chr.bed" $"hg19ToHg38.over.chain" $"All.($e).noalt.chr.hg38.bed" $"All.($e).noalt.chr.err" }
On compare les multiples
#+begin_src julia :dir ~/code/pseudogenes
using CSV, DataFramesMeta, DataFrames
Pour référence
./liftOver -multiple All.forextraction.noalt.chr.bed hg19ToHg38.over.chain All.forextraction.noalt.chr.hg38.bed All.forextraction.noalt.chr.err
./liftOver -multiple All.formasking.noalt.chr.bed hg19ToHg38.over.chain All.formasking.noalt.chr.hg38.bed All.formasking.noalt.chr.err
./liftOver -multiple All.forvarcall.noalt.chr.bed hg19ToHg38.over.chain All.forvarcall.noalt.chr.hg38.bed All.forvarcall.noalt.chr.err
./liftOver -multiple All.homologousexons.noalt.chr.bed hg19ToHg38.over.chain All.homologousexons.noalt.chr.hg38.bed All.homologousexons.noalt.chr.err
❯ ls *.err | insert fail {|e| grep -c -v '^#' $e.name }
for e in ["forextraction", "formasking", "forvarcall", "homologousexons"]
f = "All.$e.noalt.chr"
run(`./liftOver $f.bed hg19ToHg38.over.chain $f.hg38.bed $f.hg38.err`)
run(`./liftOver -multiple $f.bed hg19ToHg38.over.chain $f.hg38.multiple.bed $f.hg38.multiple.err`)
end
#+end_src
╭───┬───────────────────────────────────┬──────┬─────────┬───────────────┬──────╮
│ # │ name │ type │ size │ modified │ fail │
├───┼───────────────────────────────────┼──────┼─────────┼───────────────┼──────┤
│ 0 │ All.forextraction.noalt.chr.err │ file │ 2.2 KiB │ now │ 56 │
│ 1 │ All.formasking.noalt.chr.err │ file │ 1.1 KiB │ 5 minutes ago │ 28 │
│ 2 │ All.forvarcall.noalt.chr.err │ file │ 1.9 KiB │ 5 minutes ago │ 47 │
│ 3 │ All.homologousexons.noalt.chr.err │ file │ 2.0 KiB │ 5 minutes ago │ 37 │
╭───┬───────────────────────────────────┬──────┬─────────┬───────────────┬──────╮
│ # │ name │ type │ size │ modified │ fail │
├───┼───────────────────────────────────┼──────┼─────────┼───────────────┼──────┤
│ 0 │ All.forextraction.noalt.chr.err │ file │ 3.1 KiB │ 3 minutes ago │ 80 │
│ 1 │ All.formasking.noalt.chr.err │ file │ 1.7 KiB │ 2 minutes ago │ 42 │
│ 2 │ All.forvarcall.noalt.chr.err │ file │ 2.5 KiB │ 2 minutes ago │ 63 │
│ 3 │ All.homologousexons.noalt.chr.err │ file │ 2.8 KiB │ 2 minutes ago │ 53 │
*** Problème 1 : quid des régions qui s'alignent à plusieurs endroits
Pseudogène ?
#+begin_src julia
function ucsc(pos)
`google-chrome https://genome-euro.ucsc.edu/cgi-bin/hgTracks\?db=hg19\&lastVirtModeType=default\&lastVirtModeExtraState=\&virtModeType=default\&virtMode=0\&nonVirtPosition=\&position=$pos`
end
function readErr(f)
extr = CSV.read(f, DataFrame; comment="#",header=false)
@rtransform extr :pos = :Column1 * ":" * string(:Column2) * "-" * string(:Column3)
end
extr = readErr("All.forextraction.noalt.chr.hg38.err")
extrM = readErr("All.forextraction.noalt.chr.hg38.multiple.err")
# extrM = CSV.read("All.forextraction.noalt.chr.hg38.multiple.err", DataFrame; comment="#",header=false)
# antijoin(extr, extrM; on=[:Column1, :Column2, :Column3])
d = antijoin(extr, extrM; on=:pos)
for x in eachrow(d)
run(ucsc(x.pos))
end
#+end_src
On vérifie dans le fichier de pseudogene : non présent
Faut-il les accepter ??
*** Problème 2 : quid des régions qui ont échoué au liftover
*** TODO Mail jérémie pour faire le point sur les dossiers
SCHEDULED: <2024-08-09 ven.>
MR-2302861 : rendre MYH10 en classe 3 ? (Florence Riccardi a dit «pas de TND» mais jeune»)
MR-2200072 : lu, en attente de ta 2e lecture
MR-2400512 : neg, courrier pour VOUS ZFP62 mis sur Hygen (dans le bloc de texte)
MR-2304058 : neg mais vérifier auramatcher et revoir genematcher
MR-2400087 : courrier préparé sur Hygen
MR-2401144 : à valider sur hygen
*** DONE Mail jérémie pour faire le point sur les dossiers
CLOSED: [2024-08-09 ven. 17:56] SCHEDULED: <2024-08-09 ven.>
- MR-2302861 : MYH10 vers Hygen. Rendre en classe 3 ? (Florence Riccardi a dit «pas de TND» mais jeune»)
- MR-2200072 : lu, en attente de ta 2e lecture
- MR-2400512 : neg, courrier pour VOUS ZFP62 mis sur Hygen (dans le bloc de texte)
- MR-2304058 : on avait dit CR négatif. J'ai mis sur Hygen les variants déja connu (ADCY10, ZBTB10) Pour ZBTB10, il y a un tronquant avec Auramatcher MR-2303393 (lu mais pas un dossier facile). Ce n'est pas un dossier facile, voir ci-dessous.
- MR-2400087 : courrier préparé sur Hygen
- MR-2401144 : à valider sur hygen
- MR-2303393 : 2e lecture (beaucoup de bruit j'ai trouvé...), lu suite auramatcher ZBTB10