** Essai liftover BED
#+begin_src sh
git clone https://github.com/Genome-Bioinformatics-RadboudUMC/ChameleolyserBEDs ~/code/ChameleolyserBEDs
#+end_src
#+RESULTS:
On utilise l'outil en ligne
https://genome.ucsc.edu/cgi-bin/hgLiftOver
On prend tous les gènes (pas que les OMIM) avec la convention «chr»
wget https://hgdownload.cse.ucsc.edu/goldenpath/hg19/liftOver/hg19ToHg38.over.chain.gz
wget https://hgdownload.soe.ucsc.edu/admin/exe/linux.x86_64/liftOver
gunzip hg19ToHg38.over.chain.gz
chmod +x liftOver
[forextraction formasking forvarcall homologousexons] | each {|e| ./liftOver $"All.($e).noalt.chr.bed" $"hg19ToHg38.over.chain" $"All.($e).noalt.chr.hg38.bed" $"All.($e).noalt.chr.err" }
Pour référence
./liftOver -multiple All.forextraction.noalt.chr.bed hg19ToHg38.over.chain All.forextraction.noalt.chr.hg38.bed All.forextraction.noalt.chr.err
./liftOver -multiple All.formasking.noalt.chr.bed hg19ToHg38.over.chain All.formasking.noalt.chr.hg38.bed All.formasking.noalt.chr.err
./liftOver -multiple All.forvarcall.noalt.chr.bed hg19ToHg38.over.chain All.forvarcall.noalt.chr.hg38.bed All.forvarcall.noalt.chr.err
./liftOver -multiple All.homologousexons.noalt.chr.bed hg19ToHg38.over.chain All.homologousexons.noalt.chr.hg38.bed All.homologousexons.noalt.chr.err
❯ ls *.err | insert fail {|e| grep -c -v '^#' $e.name }
Sans l'option -multiple (en lifte pas les régions qui s'alignent à plusieurs endroits), moins de résultats
╭───┬───────────────────────────────────┬──────┬─────────┬───────────────┬──────╮
│ # │ name │ type │ size │ modified │ fail │
├───┼───────────────────────────────────┼──────┼─────────┼───────────────┼──────┤
│ 0 │ All.forextraction.noalt.chr.err │ file │ 2.2 KiB │ now │ 56 │
│ 1 │ All.formasking.noalt.chr.err │ file │ 1.1 KiB │ 5 minutes ago │ 28 │
│ 2 │ All.forvarcall.noalt.chr.err │ file │ 1.9 KiB │ 5 minutes ago │ 47 │
│ 3 │ All.homologousexons.noalt.chr.err │ file │ 2.0 KiB │ 5 minutes ago │ 37 │
╭───┬───────────────────────────────────┬──────┬─────────┬───────────────┬──────╮
│ # │ name │ type │ size │ modified │ fail │
├───┼───────────────────────────────────┼──────┼─────────┼───────────────┼──────┤
│ 0 │ All.forextraction.noalt.chr.err │ file │ 3.1 KiB │ 3 minutes ago │ 80 │
│ 1 │ All.formasking.noalt.chr.err │ file │ 1.7 KiB │ 2 minutes ago │ 42 │
│ 2 │ All.forvarcall.noalt.chr.err │ file │ 2.5 KiB │ 2 minutes ago │ 63 │
│ 3 │ All.homologousexons.noalt.chr.err │ file │ 2.8 KiB │ 2 minutes ago │ 53 │
Si on essaie de lifter par exemple
chr1 13606679 13609013 [[https://genome.ucsc.edu/cgi-bin/hgTracks?db=hg19&lastVirtModeType=default&lastVirtModeExtraState=&virtModeType=default&virtMode=0&nonVirtPosition=&position=chr1%3A13606679%2D13609013&hgsid=2264446990_5w3JSGMGACw9wraSAvbEKw2GTryr][UCSC]]
est coupé en 2 sur ALT (PRAMEF8) car ce gène n'est que dans le ALT
chr1:13281531-13282617 (46.6% of bases, 46.6% of span)
chr1:12920254-12921000 (32.0% of bases, 32.0% of span)
https://genome.ucsc.edu/cgi-bin/hgTracks?db=hg38&lastVirtModeType=default&lastVirtModeExtraState=&virtModeType=default&virtMode=0&nonVirtPosition=&position=chr1%3A13281531%2D13282617&hgsid=2328173942_Ut5M2Px0e241mNfbnnOQMKRQ1MSk
https://genome.ucsc.edu/cgi-bin/hgTracks?db=hg38&lastVirtModeType=default&lastVirtModeExtraState=&virtModeType=default&virtMode=0&nonVirtPosition=&position=chr1%3A12920254%2D12921000&hgsid=2328173952_fxB39QAXCwFtUBm8czqGaUI8HaIh
Plus de problèmes en T2T