L57R65QXZBKUKBRT7T5Z74JRZPOWTJZY4F7OEDBK24Q2BFVA3INQC
EUGCTHRO3OP2ETEQXLWAYPXVENU5XSL7LQYRNGJTGUB2SLDR3ELAC
RD3CCLTFR4URAIILI25TBU7T4GAFWRCGBT6OTQD6JQYGJROYH6ZQC
BGCUHSH45YDKFXPSM72W73JI6PZGK3NGYWBYCXRFJ3JR7W6CEN5AC
RHWQQAAHNHFO3FLCGVB3SIDKNOUFJGZTDNN57IQVBMXXCWX74MKAC
JU2NTHDKPEN3QLFTIEFF6BCRSSIWQP7LPWWONRBOTSPLVD3BD63AC
O5A3MCV34NQOOBIRBQSFKTLFQLTTC3XXNBYJEXVXBVHVMVLAWYBAC
XIPIZZFWHUNPWKNRBB3WAFT64IUEITOCVY2YCHFMB7ZP2NGUGA7QC
WHKJYYZX7Y2VYHEX4NAKKV4DHI3RBHY3XJMIGPYBPCD3DNWZUHDQC
XLRHOI27VJS2MEK2Y6PCFSQR4FRV2S6TAD3UZBOMM5TNEJAJ3M4QC
T32G2DCWXI4IVOCKP72YEPKRM5G2QQZ2WIL554XR723HFDHY2IQQC
RTP5CJJXW2DQQGKCS3R24GIB6MRCNVXWTZVUQYLXNNR4UXWWGD5AC
G6RIO46BIH5BOW7PVMOH2UEXWSBUR376WCTOYEXBNYMRPJVST5QAC
IRZ3N4E67WSWRGS5F77WEB27CLBG6IEW32GFSOYHFCC23TDGRU2AC
JCN2NFYRDY2Z6X73BIGMUTT7FLNOAKE3F7KOA5BRO7N2PCY3GBAQC
OWD5YD74S7L5FUCGYECRJIJ7LQJ6Z6JRMGLUQD5XKVAGF4EDLFWAC
SQAG5QHQNITVNTIDS74F2EYBFIQV24HFZ4D3A2UY2Y4SG7KT4HNQC
3T3UVFLPTUAEZXWKN3IMLTETZWENQMY74EJCMGI4AYAUO3PFNGDQC
3ZXSF6LXHYWPRATRVITIZETB7FTSP3HYWHV7AIS3B65Y6ID3EWXQC
BSZSUYUWGGM7DKBXK3AZZJFWFWLODMNPLDTAEHY7PWK2PI2NSCIQC
VI4EVJ3BQTKHFTFTRHVIJQIICTFKV33Y7ATR3Y4A24MFPJXJC6KQC
J3MQ32QO5ECHTE6US7KZF37CC3PVKIGFYV6WAFP5RCCNOBEG6E6AC
SDHADQGZ5ZPH7EBCKSODCEC4FBBNR7DPVQAA4EMNN7EPN5NR6GVAC
CODKUGR4OH2GM2GYYVDC3HYIF3PMOFOJAMXQBH6TUJUFEBN4STYQC
4II2DNVL6HEBHTH4WS3ASHRWIPJN6XDKM2K6LTVUU62LHWEHV2QQC
JR3UB52XAKHPCXIWLRJ3AH7YYX5I7A4OFOZILHAFTCOAJ5L4MWHQC
MBP6ODTYOWRLKV77KISV4JT3ZVKK6ZCAYIYQXE2WF6NEM6VF23XAC
WYI73VSQH53X42QU6NX3ZQIJIBIBCOFQKMTTP25Q3TEZKQ6SRVPAC
UBKAXYU7N3AT63PWE2VH6TTA3HQ27TVTDIELKEC6GL3RDMBYKYYAC
CXW37WKZDOFBTPGZQGQVWDWGA7YWGGJ47SSD4KYEXD6MPERELGGAC
NO65L7MGPDST6U4ZMLERQMFRMP2ZLHM3UJCT2KAXCDTHFBTE43XQC
VOPHQ335YHOI5OCXI6PMW757DQISRLUF2JIJSSGBTHDRQMEOB6QAC
7DYPLKHTPQTAIT7Z7SLQRSMFE2LKUGYDHVDHPAK3HBZLSIYRMUSQC
ARJKNPIONJSH7KGWIIK6UFTEUJD7Q554X6U37BCPQI3PJ4RUCWXAC
* <2022-12-03 Sat> Press handstand
- Pancake split 5x3 (coin du lit)
- Legs raise 5x3
bncftools query -f '%INFO/CLNSIG\n' dbSNP_common_chr20.vcf.gz -i
'INFO/CLNSIG[*]~"^5|" | INFO/CLNSIG[*]=="5" | INFO/CLNSIG[*]~"|5"'| sort | uniq
#+end_src
bcftools query -f '%INFO/CLNSIG\n' dbSNP_common_chr20.vcf.gz -i \
'INFO/CLNSIG[*]~"^5|" | INFO/CLNSIG[*]=="5" | INFO/CLNSIG[*]~"|5" | INFO/CLNSIG[*]~"^4|" | INFO/CLNSIG[*]=="4" | INFO/CLNSIG[*]~"|4" | INFO/CLNSIG[*]~"^12|" | INFO/CLNSIG[*]=="12" | INFO/CLNSIG[*]~"|12"' | sort
Si on exclut tous les patho:
#+begin_src sh :dir ~/code/bisonex/test_isec
bcftools query -f '%ID\n' dbSNP_common_chr20.vcf.gz -e 'INFO/CLNSIG[*]~"^5|" | INFO/CLNSIG[*]=="5" | INFO/CLNSIG[*]~"|5"'| sort | uniq | wc -l
#+end_src
#+RESULTS:
: 518842
On en a 10 de plus que la version d'Alexis
#+begin_src sh :dir ~/code/bisonex/test_isec
bcftools query -f '%ID\n' dbSNP_common_chr20.vcf.gz -e 'INFO/CLNSIG[*]=="5" | INFO/CLNSIG[*]~"^5|" | INFO/CLNSIG[*]~"|5"' | sort > common-notpatho-test.txt
sort common-notpatho-alexis.txt > sorted.txt
comm -23 common-notpatho-test.txt sorted.txt > missing_id.txt
On génère les positions à chercher dans clinvar.NB: je ne comprends pas pourquoi les régions ne fonctionne pas bien... On fait juste un grep
#+begin_src sh :dir ~/code/bisonex/test_isec
# bcftools query -f '%CHROM\t%POS\t%POS\n' -i 'ID=@missing_id.txt' dbSNP_common_chr20.vcf.gz > to_search.txt
bcftools query -f '%POS\n' -i 'ID=@missing_id.txt' dbSNP_common_chr20.vcf.gz > to_search.txt
#+end_src
bcftools query -f '%POS %REF %ALT\ %INFO/CLNSIG\n' -i 'ID=@missing_id.txt' dbSNP_common_chr20.vcf.gz
bcftools query -f '%POS %REF %ALT %INFO/CLNSIG\n' clinvar_chr20.vcf.gz | zgrep -f to_search.txt > to_check.txt
bcftools query -f '%ID\n' dbSNP_common_chr20.vcf.gz -e \
'INFO/CLNSIG[*]~"^5|" | INFO/CLNSIG[*]=="5" | INFO/CLNSIG[*]~"|5" | INFO/CLNSIG[*]~"4" | INFO/CLNSIG[*]~"12"' | sort | uniq > common-notpatho.txt
| 3234173 T A | C | G . | . | . | 2 | 2 | | | | |
| 10658574 G A | T . | 2 | 3 | 2 | 2 | 4 | | | | |
| 10672794 G A | C . | 2 | 3 | 2 | 2 | 0 | 0 | | | |
| 18525868 C T . | 0 | 2 | | | | | | | | |
| 25390747 G C . | 0 | | | | | | | | | |
| 32800145 C G | T . | 2 | 2 | 3 | 0 | 2 | | | | |
| 33412656 C G | T . | . | 2 | 2 | 0 | 2 | | | | |
| 45891622 G A | C | T . | . | 3 | 12 | 3 | | | | |
| 54171651 G A | T . | 12 | 0 | 2 | | | | | | |
| 62172726 G A . | 0 | | | | | | | | | |
| 63349782 G A | C . | 11 | 2 | 2 | 2 | 0 | | | | |
| 63414925 G A | C | T . | 3 | 0 | 3 | 2 | 2 | 2 | 2 | . |
sed 's/if '\''PATHO'\'' in clinvarline\[7\].upper():/if "Pathogenic" in clinvarline[7]:/' ../script/pythonScript/clinvar_sbSNP.py > ../script/pythonScript/clinvar_sbSNP_patch.py
snp=dbSNP_common_chr20.vcf.gz
clinvar=clinvar_chr20_notremapped.vcf.gz
python ../script/pythonScript/clinvar_sbSNP_patch.py \
--clinvar $clinvar \
--chrm_name_table ../database/RefSeq/refseq_to_number_only_consensual.txt \
--dbSNP $snp --output tmp.txt
sort tmp.txt > common-notpatho-alexis.txt
wc -l common-notpatho-alexis.txt
comm -23 common-notpatho-alexis.txt common-notpatho.txt > alexis-only.txt
cat alexis-only.txt
sort common-notpatho-alexis.txt > sorted.txt
comm -23 sorted.txt common-notpatho-test.txt
bcftools query -f '%POS %REF %ALT %INFO/CLNSIG\n' -i 'ID=@alexis-only.txt' dbSNP_common_chr20.vcf.gz
bcftools query -f '%POS\n' -i 'ID=@alexis-only.txt' dbSNP_common_chr20.vcf.gz > alexis-only-pos.txt
while read -r line; do
bcftools query -f '%POS %REF %ALT %INFO/CLNSIG\n' -i 'POS='$line clinvar_chr20.vcf.gz
done < alexis-only-pos.txt
# bcftools query -f '%POS %REF %ALT %INFO/CLNSIG\n' -i 'POS=23637790' clinvar_chr20.vcf.gz
| rs3833341 |
| rs73598374 |
| 764018 | A | ACAGGTCAAT,ACAGGT | .,5 | 2,. | |
| 23637790 | C | G,T | .,.,12 | | |
| 44651586 | C | A,G,T | .,.,.,5 | 2 | 2 |
| 764018 | A | ACAGGTCAAT | Benign | | |
| 23637790 | C | T | Benign | | |
| 44651586 | C | T | Benign | | |
On a donc une discordance entre clinvar et dbSNP.
On dirait qu'ils ont mal fait l'intersection avec clinvar.
Par exemple https://www.ncbi.nlm.nih.gov/snp/rs3833341#clinical_significance
Tu as l'impression qu'il y a un 1 clinvar bénin et 1 patho.
rs1799990
rs3833341
rs73598374
En cherchant par NM, tu vois qu'il est bénin sur clinvar car il y a d'autres soumissions ! https://www.ncbi.nlm.nih.gov/clinvar/variation/262235/
Confirmation sur nos bases de données :
$ bcftools query -f '%POS %REF %ALT %INFO/CLNSIG\n' -i 'POS=764018' dbSNP_common_chr20.vcf.gz
764018 A ACAGGTCAAT,ACAGGT .,5|2,.
$ bcftools query -f '%POS %REF %ALT %INFO/CLNSIG\n' -i 'POS=764018' clinvar_chr20.vcf.gz
764018 A ACAGGTCAAT Benign
**** TODO Sarek
**** TODO Genome in a bottle ?
On n'a pas l'ADN.. séquencer à Centogène ?
*** Améliorations
**** TODO Utilise une versionn allégée de GnomAD (une seule colonne)
**** TODO Utiliser T-to-T comme références
**** TODO Digenisme (cf nomenclature omim)
C’est dans le nom de la maladie
**** TODO Macro excel
*** HOLD Implémenter d’autres pipeline
Voir https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04407-x
**** KILL GATK
CLOSED: [2022 -11-11 Fri 20:01]
https://broadinstitute.github.io/warp/docs/Pipelines/Exome_Germline_Single_Sample_Pipeline/README
A priori, respecte les bonnes pratiques
**** KILL Essayer snmake avec bonne pratiques
https://github.com/snakemake-workflows/dna-seq-gatk-variant-calling/blob/main/.github/workflows/main.yml
Installer Mamba (micromamba ne fonctionne pas sous nix)
Ne fonctionne pas sous WSL2... MultiQC n’est pas assez à jour
Problèmes de versions...
**** HOLD Sarek
***** TODO Lancer sarek sur données allégées
**** TODO Genome in a bottle ?
On n'a pas l'ADN.. séquencer à Centogène ?
*** Améliorations
**** TODO Utilise une versionn allégée de GnomAD (une seule colonne)
**** TODO Utiliser T-to-T comme références
**** TODO Digenisme (cf nomenclature omim)
C’est dans le nom de la maladie
**** TODO Macro excel
*** TODO Implémenter d’autres pipeline
Voir https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-021-04407-x
**** KILL GATK
CLOSED: [2022 -11-11 Fri 20:01]
https://broadinstitute.github.io/warp/docs/Pipelines/Exome_Germline_Single_Sample_Pipeline/README
A priori, respecte les bonnes pratiques
**** KILL Essayer snmake avec bonne pratiques
https://github.com/snakemake-workflows/dna-seq-gatk-variant-calling/blob/main/.github/workflows/main.yml
Installer Mamba (micromamba ne fonctionne pas sous nix)
Ne fonctionne pas sous WSL2... MultiQC n’est pas assez à jour
Problèmes de versions...
**** TODO Les pipeline de nf-core:
***** Sarek
***** HOLD Lancer sarek sur données allégées