OWD5YD74S7L5FUCGYECRJIJ7LQJ6Z6JRMGLUQD5XKVAGF4EDLFWAC
FSE2WMRFI2RGNKOJCW34CN3M3EPJAPFXY7O5JKQG2EOYFPI4YL5QC
JC7WIPNKI5INKLTOLR4OACIUFNKDXOOYXAEXSE4VK2NDK7H7GIPAC
XU5VS2SAYRZV32YQ4QCQ2JIJVNRECK5BKMSB6EXEPLZ4O55PLFGAC
3ZXSF6LXHYWPRATRVITIZETB7FTSP3HYWHV7AIS3B65Y6ID3EWXQC
RHWQQAAHNHFO3FLCGVB3SIDKNOUFJGZTDNN57IQVBMXXCWX74MKAC
WXXVA2RG5DAZMQVHHYXI3BDVPU2XOT2DGKXEZG777DZJI44OOFVAC
IRZ3N4E67WSWRGS5F77WEB27CLBG6IEW32GFSOYHFCC23TDGRU2AC
SQAG5QHQNITVNTIDS74F2EYBFIQV24HFZ4D3A2UY2Y4SG7KT4HNQC
3T3UVFLPTUAEZXWKN3IMLTETZWENQMY74EJCMGI4AYAUO3PFNGDQC
XIPIZZFWHUNPWKNRBB3WAFT64IUEITOCVY2YCHFMB7ZP2NGUGA7QC
4II2DNVL6HEBHTH4WS3ASHRWIPJN6XDKM2K6LTVUU62LHWEHV2QQC
JU2NTHDKPEN3QLFTIEFF6BCRSSIWQP7LPWWONRBOTSPLVD3BD63AC
EQLVBKFFSDWMHAXWSPNBKCUG4EDKSQGVHUDKWZF6C6TBZR5W23IQC
BSZSUYUWGGM7DKBXK3AZZJFWFWLODMNPLDTAEHY7PWK2PI2NSCIQC
******* TODO Pourquoi nombre de lignes différentes avec la version d'Alexis
Grosse différence !
#+begin_src
$ wc -l ID_of_common_snp_not_clinvar_patho.txt
23119915 ID_of_common_snp_not_clinvar_patho.txt
$ wc -l /Work/Users/apraga/bisonex/database/dbSNP/ID_of_common_snp_not_clinvar_patho.txt
85820 /Work/Users/apraga/bisonex/database/dbSNP/ID_of_common_snp_not_clinvar_patho.txt
#+end_src
******** Clinvar classe 4 ? Moins mais toujours trop
#+begin_src
$ zgrep '^NC' tmp.vcf.gz | wc -l
21081654
#+end_src
******** Comparer les ID et regarder ceux en plus
#+begin_src sh
bcftools isec -e 'INFO/CLNSIG="Pathogenic"' -c none -n~10 /Work/Groups/bisonex/data/dbSNP/GRCh38.p13/dbSNP_common.vcf.gz /Work/Groups/bisonex/data/clinvar/GRCh38/clinvar.vcf.gz -w 1 -o tmp.vcf.gz
zgrep -o -e 'rs[[:digit:]]\' tmp.vcf.gz | sort | id_sorted.txt
sort ../database/dbSNP/ID_of_common_snp_not_clinvar_patho.txt > reference_sorted.txt
comm -23 id_sorted.txt reference_sorted.txt > unique1.txt
#+end_src
Par exemple
#+begin_src sh
zgrep rs1000000561 ../database/dbSNP/dbSNP_common.vcf.gz
#+end_src
NC_000002.12 136732859 rs1000000561 ACG A,ACGCG . PASS RS=1000000561;dbSNPBuildID=151;SSR=0;VC=INDEL;GNO;FREQ=ALSPAC:0.2506,0.7494,.|TOMMO:0.9971,0.002865,.|TWINSUK:0.2473,0.7527,.|dbGaP_PopFreq:0.993,0.006943,8.902e-05;COMMON
Attention, clinvar est en numéro de chromosomoe et dbSNP en NC...
**** STRT Ajouter common snp not clinvar path
Problème avec la liste des ID
- dbSNP comon : même nombre de lignes ? oui
#+begin_src sh
[apraga@mesointeractive bisonex]$ zgrep '^NC' database/dbSNP/dbSNP_common.vcf.g
z | wc -l
21155971
[apraga@mesointeractive bisonex]$ zgrep '^NC' /Work/Groups/bisonex/data/dbSNP_common.vcf.gz | wc -l
2115597
#+end_src
- vérifier script python: mail envoyé alexis
**** DONE Alignement
***** TODO Corriger numérotation chromosome pour clinav
***** STRT Ajouter common snp not clinvar path
***** DONE Alignement
**** TODO Test de non régression avec version ALexis
- alignement + variant:
**** TODO Test de non régression avec version ALexis avec nix
***** DONE ID common snp
CLOSED: [2022-11-19 Sat 21:36]
#+begin_src
$ wc -l ID_of_common_snp.txt
23194290 ID_of_common_snp.txt
$ wc -l /Work/Users/apraga/bisonex/database/dbSNP/ID_of_common_snp.txt
23194290 /Work/Users/apraga/bisonex/database/dbSNP/ID_of_common_snp.txt
#+end_src
***** TODO ID commo snp not clinvar patho
Résoudre [[*Pourquoi nombre de lignes différentes avec la version d'Alexis][Pourquoi nombre de lignes différentes avec la version d'Alexis]]
***** TODO alignement + variant: