B:BD[
4.9174] → [
4.9174:17395]
∅:D[
4.17395] → [
7.8222:16385]
B:BD[
7.8222] → [
7.8222:16385]
B:BD[
7.16385] → [
2.289:16673]
4 | Acc | 0.0000003317384 | No | Acc | 89894637 | 7 | 89894644 | 0.0000002205815 | No | 89894637 | 0.02545572 | No | 0.02545572 | No |
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
**** DONE Vérifier multiples transcripts en hg38 avec coordonées génomiquues: ok
CLOSED: [2023-08-10 Thu 23:00]
Beaucoup plus de transcrits en T2T
Ex: 1 transcrit refseq curated
http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg38&lastVirtModeType=default&lastVirtModeExtraState=&virtModeType=default&virtMode=0&nonVirtPosition=&position=chr11%3A108257446%2D108257496&hgsid=1672963428_J5aWAqack2FpJ7mvhFTNVw7bKzxo
vs 2 transcrits en T2T
http://genome.ucsc.edu/cgi-bin/hgTracks?db=hub_3671779_hs1&lastVirtModeType=default&lastVirtModeExtraState=&virtModeType=default&virtMode=0&nonVirtPosition=&position=chr11%3A108264969%2D108265019&hgsid=1672963612_Eso9frdQ7z6RkKkcKsIf2Waq3pec
C'est bien ce qu'on retrouve avec spip
*** DONE [#A] Filtre vep avec spip
CLOSED: [2023-08-13 Sun 00:39] SCHEDULED: <2023-08-12 Sat 19:00>
*** DONE Annotation CADD + spliceAI GRCh38 avec nouvelle version :annotation:
CLOSED: [2023-08-28 Mon 17:21] SCHEDULED: <2023-08-20 Sun>
*** DONE OMIM: possible seulement sur nom du gènes:annotation:
CLOSED: [2023-08-13 Sun 11:57] SCHEDULED: <2023-08-13 Sun 16:00>
Base de données non disponible et compliqué de faire la mise à jour nous.
Si on essaie de prendre les gènes de GRCH38, ils ne sont pas forcément en T2T
Ex: DDX11L17 n'existe pas dans T2T à ces coordonées
zgrep DDX11L17 GCF_009914755.1_T2T-CHM13v2.0_genomic.gff.gz
Note: c'est un pseudogene
https://www.genecards.org/cgi-bin/carddisp.pl?gene=DDX11L17
Si on prend les gènes de T2T, il y en a des nouveaux.
Ex: le premier est LOC101928626.
À cette position, rien en GRCh38
Si on essaye avec ENSEMBL: non car n'ont pas le même identifiant
Ex: ACHE
Idéalement, il faudrait l'identifiant NCBI (disponible dans OMIM) mais n'est pas en sortie de VEP
Et cela demande la version "merged" donc impossible en T2T
Est-ce faisable de faire une chr10129957338-T-Ccorrespondance sur le nom du gène ?
Tous les gènes de T2T:
#+begin_src sh :dir ~/Downloads
zgrep -o "ID=gene[^;]*;" GCF_009914755.1_T2T-CHM13v2.0_genomic.gff.gz | sed 's/ID=gene-//;s/;//' | sort | uniq > t2t-genes.txt
wc -l t2t-genes.txt
#+end_src
#+RESULTS:
: 57660 t2t-genes.txt
#+begin_src sh :dir ~/Downloads
zgrep -o "ID=gene[^;]*;" GCF_000001405.40_GRCh38.p14_genomic.gff.gz | sed 's/ID=gene-//;s/;//' | sort | uniq > hg38-genes.txt
wc -l hg38-genes.txt
#+end_src
#+RESULTS:
: 67127 hg38-genes.txt
Gènes communs aux 2
#+begin_src sh :dir ~/Downloads
comm -12 t2t-genes.txt hg38-genes.txt | wc -l
#+end_src
#+RESULTS:
: 54506
Gènes uniquements dans t2t
#+begin_src sh :dir ~/Downloads
comm -23 t2t-genes.txt hg38-genes.txt | wc -l
#+end_src
#+RESULTS:
: 3154
Gènes uniquements dans GRCh38
#+begin_src sh :dir ~/Downloads
comm -13 t2t-genes.txt hg38-genes.txt | wc -l
#+end_src
#+RESULTS:
: 12621
*** HOLD OMIM sur nom du gène :annotation:
*** DONE Mobidetails API
CLOSED: [2023-09-10 Sun 16:44]
Trop long ... 1h à 1h30 d'exécution
Disponible dans module
*** DONE Filtre vep avec spip for T2T et spliceAI pour GRCh38
CLOSED: [2023-09-16 Sat 22:47]
*** DONE Repasser tests en GRCh38 avec nouveau filtre (spip ou splice ai) :sanger:
CLOSED: [2023-09-17 Sun 09:07] SCHEDULED: <2023-09-16 Sat>
*** HOLD Franklin API
https://www.postman.com/genoox-ps/workspace/franklin-api-documentation-s-public-workspace/documentation/6621518-4335389d-12e3-445f-8182-339df95b2a09
*** KILL Regarder si clinique disponible avec vep :annotation:
CLOSED: [2023-09-10 Sun 16:44]
*** DONE Tester filtre sans splice: 6130 mais il en manque 4
CLOSED: [2023-10-18 Wed 22:50] SCHEDULED: <2023-09-27 Wed>
Mail Paul: Exome donc hors splice, peu intéressant
**** DONE Enlever complètement condition splice: 6130 variants restants...
CLOSED: [2023-09-27 Wed 19:37] SCHEDULED: <2023-09-26 Tue>
Cf [[id:c9b2009a-503b-4561-94c6-29ae21a3188d][Filtre vep avec spliceAI: 37365 -> 6130]]
Dans tests/splicai
#+begin_src sh
filter_vep -i output-all-gpu.vcf --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --only_matched -o test.vcf
grep -c -v '^#' test.vcf
6130
#+end_src
**** DONE Remplacer par impact fonctionnel: peu d'impact : majorité = MODERATE
CLOSED: [2023-09-27 Wed 19:45] SCHEDULED: <2023-09-26 Tue>
filter_vep -i output-all-gpu-filtered.vcf --format vcf --filter "IMPACT is HIGH" --only_matched | grep -c -v '^#'
258
filter_vep -i output-all-gpu-filtered.vcf --format vcf --filter "IMPACT is LOW" --only_matched | grep -c -v '^#'
11
filter_vep -i output-all-gpu-filtered.vcf --format vcf --filter "IMPACT is MODERATE" --only_matched | grep -c -v '^#'
5824
**** DONE Regarder les conséquences pour tes les transcripts
CLOSED: [2023-09-27 Wed 21:04]
/Work/Users/apraga/bisonex/out/annotate/vep/NA12878-sanger-all-T2T
filter_vep -i NA12878-sanger-all-T2T.vep.vcf.gz --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --only_matched -o filtered.vcf
bcftools +split-vep filtered.vcf -f '%Consequence\n' -d | sort | uniq -c
94 coding_sequence_variant
13 coding_sequence_variant&NMD_transcript_variant
257 frameshift_variant
21 frameshift_variant&NMD_transcript_variant
2 frameshift_variant&splice_donor_region_variant
20 frameshift_variant&splice_region_variant
1 frameshift_variant&splice_region_variant&NMD_transcript_variant
1 incomplete_terminal_codon_variant&coding_sequence_variant
211 inframe_deletion
18 inframe_deletion&NMD_transcript_variant
6 inframe_deletion&splice_region_variant
242 inframe_insertion
22 inframe_insertion&NMD_transcript_variant
4 inframe_insertion&splice_region_variant
14689 missense_variant
1416 missense_variant&NMD_transcript_variant
6 missense_variant&splice_donor_5th_base_variant
374 missense_variant&splice_region_variant
34 missense_variant&splice_region_variant&NMD_transcript_variant
53 splice_acceptor_variant
11 splice_acceptor_variant&NMD_transcript_variant
79 splice_donor_variant
6 splice_donor_variant&NMD_transcript_variant
30 start_lost
5 start_lost&NMD_transcript_variant
135 stop_gained
13 stop_gained&frameshift_variant
3 stop_gained&frameshift_variant&NMD_transcript_variant
2 stop_gained&frameshift_variant&splice_region_variant
14 stop_gained&NMD_transcript_variant
5 stop_gained&splice_region_variant
2 stop_gained&splice_region_variant&NMD_transcript_variant
4 stop_lost
1 stop_lost&NMD_transcript_variant
9 stop_retained
_variant
6 stop_retained_variant&NMD_transcript_variant
1 transcript_ablation
Idem tests/spliceai
bcftools +split-vep output-all-gpu-filtered.vcf -f '%Consequence\n' -d | sort | uniq -c
94 coding_sequence_variant
13 coding_sequence_variant&NMD_transcript_variant
257 frameshift_variant
21 frameshift_variant&NMD_transcript_variant
2 frameshift_variant&splice_donor_region_variant
20 frameshift_variant&splice_region_variant
1 frameshift_variant&splice_region_variant&NMD_transcript_variant
1 incomplete_terminal_codon_variant&coding_sequence_variant
211 inframe_deletion
18 inframe_deletion&NMD_transcript_variant
6 inframe_deletion&splice_region_variant
242 inframe_insertion
22 inframe_insertion&NMD_transcript_variant
4 inframe_insertion&splice_region_variant
14689 missense_variant
1416 missense_variant&NMD_transcript_variant
6 missense_variant&splice_donor_5th_base_variant
374 missense_variant&splice_region_variant
34 missense_variant&splice_region_variant&NMD_transcript_variant
53 splice_acceptor_variant
11 splice_acceptor_variant&NMD_transcript_variant
79 splice_donor_variant
6 splice_donor_variant&NMD_transcript_variant
30 start_lost
5 start_lost&NMD_transcript_variant
135 stop_gained
13 stop_gained&frameshift_variant
3 stop_gained&frameshift_variant&NMD_transcript_variant
2 stop_gained&frameshift_variant&splice_region_variant
14 stop_gained&NMD_transcript_variant
5 stop_gained&splice_region_variant
2 stop_gained&splice_region_variant&NMD_transcript_variant
4 stop_lost
1 stop_lost&NMD_transcript_variant
9 stop_retained_variant
6 stop_retained_variant&NMD_transcript_variant
1 transcript_ablation
**** DONE Regarder les conséquences pour -s worst
CLOSED: [2023-09-27 Wed 21:04]
/Work/Users/apraga/bisonex/out/annotate/vep/NA12878-sanger-all-T2T
Après filtre_vep sans splice
]$ bcftools +split-vep filtered.vcf -f '%Consequence\n' -d -s worst | sort | uniq -c
48 coding_sequence_variant
6 coding_sequence_variant&nmd_transcript_variant
121 frameshift_variant
9 frameshift_variant&nmd_transcript_variant
1 frameshift_variant&splice_donor_region_variant
9 frameshift_variant&splice_region_variant
79 inframe_deletion
3 inframe_deletion&nmd_transcript_variant
2 inframe_deletion&splice_region_variant
85 inframe_insertion
2 inframe_insertion&nmd_transcript_variant
1 inframe_insertion&splice_region_variant
5309 missense_variant
207 missense_variant&nmd_transcript_variant
3 missense_variant&splice_donor_5th_base_variant
110 missense_variant&splice_region_variant
9 missense_variant&splice_region_variant&nmd_transcript_variant
19 splice_acceptor_variant
1 splice_acceptor_variant&nmd_transcript_variant
21 splice_donor_variant
1 splice_donor_variant&nmd_transcript_variant
14 start_lost
44 stop_gained
4 stop_gained&frameshift_variant
2 stop_gained&frameshift_variant&splice_region_variant
3 stop_gained&nmd_transcript_variant
3 stop_gained&splice_region_variant
2 stop_gained&splice_region_variant&nmd_transcript_variant
2 stop_lost
1 stop_lost&nmd_transcript_variant
6 stop_retained_variant
2 stop_retained_variant&nmd_transcript_variant
1 transcript_ablation
Dans tests/spliceai
$ bcftools +split-vep output-all-gpu-filtered.vcf -f '%Consequence\n' -s worst -d | sort | uniq -c
48 coding_sequence_variant
6 coding_sequence_variant&nmd_transcript_variant
121 frameshift_variant
9 frameshift_variant&nmd_transcript_variant
1 frameshift_variant&splice_donor_region_variant
9 frameshift_variant&splice_region_variant
79 inframe_deletion
3 inframe_deletion&nmd_transcript_variant
2 inframe_deletion&splice_region_variant
85 inframe_insertion
2 inframe_insertion&nmd_transcript_variant
1 inframe_insertion&splice_region_variant
5309 missense_variant
207 missense_variant&nmd_transcript_variant
3 missense_variant&splice_donor_5th_base_variant
110 missense_variant&splice_region_variant
9 missense_variant&splice_region_variant&nmd_transcript_variant
19 splice_acceptor_variant
1 splice_acceptor_variant&nmd_transcript_variant
21 splice_donor_variant
1 splice_donor_variant&nmd_transcript_variant
14 start_lost
44 stop_gained
4 stop_gained&frameshift_variant
2 stop_gained&frameshift_variant&splice_region_variant
3 stop_gained&nmd_transcript_variant
3 stop_gained&splice_region_variant
2 stop_gained&splice_region_variant&nmd_transcript_variant
2 stop_lost
1 stop_lost&nmd_transcript_variant
6 stop_retained_variant
2 stop_retained_variant&nmd_transcript_variant
1 transcript_ablation
**** KILL Vérifier si tests sanger passent: non
CLOSED: [2023-09-28 Thu 01:33] SCHEDULED: <2023-09-27 Wed>
│ String Float64 Int64
─────┼───────────────────────────────────────
1 │ chr10:g.130884530 60.0 67
2 │ chr10:g.240362 60.0 79
3 │ chr14:g.52665581 60.0 51
4 │ chr19:g.41325390 60.0 180
**** DONE Comparer aux filtres en GRCh38: ce sont bien les filtres hors splice...
CLOSED: [2023-10-17 Tue 21:12]
T2T:
filter_vep -i 2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.vep.vcf.gz --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --only_matched | bcftools +counts
Number of samples: 1
Number of SNPs: 5362
Number of INDELs: 325
Number of MNPs: 323
Number of others: 0
Number of sites: 5991
GRCh38
filter_vep -i 2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.vep.vcf.gz --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --only_matched | bcftools +counts
Number of samples: 1
Number of SNPs: 1182
Number of INDELs: 143
Number of MNPs: 535
Number of others: 0
Number of sites: 1840
**** DONE Proportions de conséquence : T2T vs GRCh38 avec multiqc: idem
CLOSED: [2023-10-17 Tue 21:00]
À l'oeil
**** Réexaminer les conséquences
***** DONE Impact fonctionnel: plus de LOW et de MODIFIER++
CLOSED: [2023-10-17 Tue 21:22]
T2T
bcftools +split-vep 2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.filtervep.vcf -f '%IMPACT\n' -d | sort | uniq -c
596 HIGH
2828 LOW
16314 MODERATE
11261 MODIFIER
GRCh38
bcftools +split-vep 2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.filtervep.vcf -f '%IMPACT\n' -d | sort | uniq -c
414 HIGH
466 LOW
10054 MODERATE
550 MODIFIER
***** DONE Pire conséquence: trop de missense
CLOSED: [2023-10-17 Tue 21:23]
GRCh38
$ bcftools +split-vep 2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.filtervep.vcf -f '%Consequence\n' -d -s worst | sort | uniq -c
2 3_prime_utr_variant&nmd_transcript_variant
1 5_prime_utr_variant
2 coding_sequence_variant
47 frameshift_variant
6 frameshift_variant&nmd_transcript_variant
1 frameshift_variant&splice_donor_region_variant
1 frameshift_variant&spli
ce_region_variant
1 frameshift_variant&start_lost&start_retained_variant
37 inframe_deletion
9 inframe_deletion&nmd_transcript_variant
27 inframe_insertion
5 inframe_insertion&nmd_transcript_variant
21 intron_variant
1593 missense_variant
37 missense_variant&nmd_transcript_variant
17 missense_variant&splice_region_variant
1 missense_variant&splice_region_variant&nmd_transcript_variant
1 protein_altering_variant
1 splice_acceptor_variant
1 splice_acceptor_variant&frameshift_variant
2 splice_acceptor_variant&nmd_transcript_variant
3 splice_donor_5th_base_variant&intron_variant
1 splice_donor_5th_base_variant&intron_variant&non_coding_transcript_variant
2 splice_donor_region_variant&intron_variant
1 splice_donor_region_variant&intron_variant&nmd_transcript_variant
1 splice_donor_region_variant&intron_variant&non_coding_transcript_variant
10 splice_donor_variant
1 splice_donor_variant&non_coding_transcript_variant
11 splice_polypyrimidine_tract_variant&intron_variant
1 splice_polypyrimidine_tract_variant&intron_variant&non_coding_transcript_variant
1 splice_region_variant&intron_variant
9 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant
3 splice_region_variant&synonymous_variant
1 splice_region_variant&synonymous_variant&nmd_transcript_variant
4 start_lost
19 stop_gained
2 stop_gained&frameshift_variant
2 stop_gained&nmd_transcript_variant
1 stop_gained&splice_region_variant
1 stop_gained&splice_region_variant&nmd_transcript_variant
3 stop_lost
2 stop_lost&nmd_transcript_variant
1 stop_retained_variant
18 synonymous_variant
1 synonymous_variant&nmd_transcript_variant
1 transcript_ablation
T2T
[apraga@mesointeractive filter]$ bcftools +split-vep 2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.filtervep.vcf -f '%Consequence\n' -d -s worst | sort | uniq -c
15 3_prime_utr_variant
11 3_prime_utr_variant&nmd_transcript_variant
51 5_prime_utr_variant
3 5_prime_utr_variant&nmd_transcript_variant
48 coding_sequence_variant
5 coding_sequence_variant&nmd_transcript_variant
3 downstream_gene_variant
121 frameshift_variant
9 frameshift_variant&nmd_transcript_variant
1 frameshift_variant&splice_donor_region_variant
9 frameshift_variant&splice_region_variant
78 inframe_deletion
2 inframe_deletion&nmd_transcript_variant
2 inframe_deletion&splice_region_variant
84 inframe_insertion
2 inframe_insertion&nmd_transcript_variant
1 inframe_insertion&splice_region_variant
16 intergenic_variant
368 intron_variant
21 intron_variant&nmd_transcript_variant
71 intron_variant&non_coding_transcript_variant
5187 missense_variant
207 missense_variant&nmd_transcript_variant
3 missense_variant&splice_donor_5th_base_variant
105 missense_variant&splice_region_variant
9 missense_variant&splice_region_variant&nmd_transcript_variant
33 non_coding_transcript_exon_variant
12 splice_acceptor_variant
1 splice_acceptor_variant&5_prime_utr_variant&intron_variant&nmd_transcript_variant
1 splice_acceptor_variant&nmd_transcript_variant
3 splice_acceptor_variant&non_coding_transcript_variant
1 splice_acceptor_variant&splice_polypyrimidine_tract_variant&intron_variant&nmd_transcript_variant
16 splice_donor_5th_base_variant&intron_variant
2 splice_donor_5th_base_variant&intron_variant&non_coding_transcript_variant
33 splice_donor_region_variant&intron_variant
4 splice_donor_region_variant&intron_variant&nmd_transcript_variant
7 splice_donor_region_variant&intron_variant&non_coding_transcript_variant
19 splice_donor_variant
1 splice_donor_variant&nmd_transcript_variant
2 splice_donor_variant&non_coding_transcript_variant
3 splice_donor_variant&splice_donor_5th_base_variant&coding_sequence_variant&intron_variant
64 splice_polypyrimidine_tract_variant&intron_variant
6 splice_polypyrimidine_tract_variant&intron_variant&nmd_transcript_variant
8 splice_polypyrimidine_tract_variant&intron_variant&non_coding_transcript_variant
2 splice_region_variant&3_prime_utr_variant
2 splice_region_variant&5_prime_utr_variant
4 splice_region_variant&intron_variant
6 splice_region_variant&non_coding_transcript_exon_variant
54 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant
4 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant&nmd_transcript_variant
5 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant&non_coding_transcript_variant
27 splice_region_variant&synonymous_variant
13 start_lost
31 stop_gained
4 stop_gained&frameshift_variant
2 stop_gained&frameshift_variant&splice_region_variant
3 stop_gained&nmd_transcript_variant
2 stop_gained&splice_region_variant
2 stop_gained&splice_region_variant&nmd_transcript_variant
2 stop_lost
1 stop_lost&nmd_transcript_variant
6 stop_retained_variant
2 stop_retained_variant&nmd_transcript_variant
349 synonymous_variant
17 synonymous_variant&nmd_transcript_variant
1 transcript_ablation
2 upstream_gene_variant
*** DONE Regarder annotation VEP des variants sur NA12878 non trataié :na12878:
CLOSED: [2023-10-18 Wed 22:50] SCHEDULED: <2023-10-16 Mon>
/Entered on/ [2023-10-16 Mon 19:39]
*** DONE Regarder si les variants sont dans des zones modifiées de T2T
CLOSED: [2023-10-19 Thu 17:19] SCHEDULED: <2023-10-18 Wed>
/Entered on/ [2023-10-18 Wed 22:49]
Liftover des variants de GRCh38 -> T2T
Cf ~/roam/research/bisonex/code/t2t/comparePositions.jl
#+begin_quote
Successfully converted 1896 records: View Conversions
Conversion failed on 17 records.
#+end_quote
On utilise t2tOnly()
Proportion par chromosome
julia> @by d :Column1 $nrow
24×2 DataFrame
Row │ Column1 nrow
│ String7 Int64
─────┼────────────────
1 │ chr1 678
2 │ chr2 369
3 │ chr3 287
4 │ chr4 224
5 │ chr5 258
6 │ chr6 430
7 │ chr7 321
8 │ chr8 218
9 │ chr9 251
10 │ chr10 275
11 │ chr11 489
12 │ chr12 350
13 │ chr13 74
14 │ chr14 185
15 │ chr15 171
16 │ chr16 283
17 │ chr17 364
18 │ chr18 82
19 │ chr19 550
20 │ chr20 142
21 │ chr21 93
22 │ chr22 171
23 │ chrX 98
24 │ chrY 1
*** DONE Regarder si les variants sont sur des nouveaux gènes
CLOSED: [2023-10-19 Thu 20:18] SCHEDULED: <2023-10-19 Thu>
Cf ~/roam/reasearch/bisonex/code/t2t/compareGene.jl
Test de la fonction pour extraire les gènes:
Important: les chiffres ne sont pas données sur le nom du gène seul mais sur le nom + la position. On ne supprime donc pas les noms en double"
- T2T
- refseq + liftoff, 20 008, The official webpage says 20 006 for v4 https://ccb.jhu.edu/T2T.shtml.
- Gencode38 19490
- GRCh38
- refseq we have 23 314, so 4 less than the official website : https://www.ncbi.nlm.nih.gov/datasets/gene/GCF_000001405.40/?gene_type=protein-coding
On choisit refseq:: Il y a 170 gènes (unique sur le nom du gène !) dans T2T non présents dans GRCh38-p14
À noter qu'il y a plus de gènes dans Refseq en GRC38-p14 qu'en T2T (20 080 > 19 748 )
Avec compareGene.j, on retrouve 0.73%
*** TODO Annotation avec vep + GTF (dernière versio)
SCHEDULED: <2023-10-19 Thu>
https://www.science.org/doi/10.1126/science.abj6987#core-R61
/Entered on/ [2023-10-19 Thu 10:41]
#+begin_src sh :dir "meso://Work/Users/apraga/bisonex/test/t2t"
wget https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/CHM13/assemblies/annotation/chm13v2.0_RefSeq_Liftoff_v5.1.gff3.gz
zgrep -v "#" chm13v2.0_RefSeq_Liftoff_v5.1.gff3.gz | sort -k1,1 -k4,4n -k5,5n -t$'\t' | bgzip -c > chm13v2.0_RefSeq_prepared.gff3.gz
tabix -p gff chm13v2.0_RefSeq_prepared.gff3.gz
#+end_src
# ./vep -i input.vcf --gff data.gff.gz --fasta genome.fa.gz
Dans ce dossier, on annote
#+begin_src sh
vep -i ../../out/annotate/vep/2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.vep.vcf.gz --gff chm13v2.0_RefSeq_prepared.gff3.gz --fasta /Work/Groups/bisonex/data/fasta/chm13v2.0/chm13v2.0.fa --vcf -o na12878_annotated.vcf
#+end_src
Et on filtre
#+begin_src sh
filter_vep -i na12878_annotated.vcf --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --only_matched > na12878_annotated_filtered.vcf
#+end_src
*** DONE Figure propre pour position des variants
CLOSED: [2023-10-19 Thu 15:41] SCHEDULED: <2023-10-19 Thu>
*** DONE Nombre de variants dans les zones exclusives à T2T
CLOSED: [2023-10-19 Thu 16:39] SCHEDULED: <2023-10-19 Thu>
Zones unique à T2T données par : https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1735553302_OcJ6esPoUFcSykF6hKiRmIGU24KD&db=hub_3267197_GCA_009914755.4&c=CP068269.2&g=hub_3267197_hgUnique
Note: le .fai donné ( https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/CHM13/assemblies/analysis_set/chm13v2.0.fa.gz.gzi ) cause un problème aec bcftools :
Chromosome "" defined twice in chm13v2.0.fa.gz.gzi
On utilise donc l'index regénér sur le mésocentre
#+begin_src sh :dir "/home/alex/roam/research/bisonex/code/t2t"
wget https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/CHM13/assemblies/chain/v1_nflo/grch38-chm13v2.paf
scp meso:/Work/Projects/bisonex/data/fasta/chm13v2.0/chm13v2.0.fa.fai .
cut -f 1,3,4 grch38-chm13v2.paf | bedtools sort -i - -g chm13v2.0.fa.fai | bedtools merge | bedtools complement -g chm13v2.0.fa.fai -i - | bedtools merge | save T2T-CHM13v2.0_unique_regions_hg38.bed -f
#+end_src
#+RESULTS:
On génère le BED des variants supplémentaires en T2T avec
Puis
#+begin_src sh :dir "/home/alex/roam/research/bisonex/code/t2t"
bedtools intersect -a na12878-t2t-only.bed -b T2T-CHM13v2.0_unique_regions_hg38.bed > na12878-t2t-only-unique.bed
wc -l na12878-t2t-only.bed
wc -l na12878-t2t-only-unique.bed
#+end_src
#+RESULTS:
| 6364 | na12878-t2t-only.bed |
| 47 | na12878-t2t-only-unique.bed |
Donc 0.73% sont dans des zones unique
*** KILL Comparer l'annotation sur 1 variant filtré en GRCh388 et non filtré en T2T
CLOSED: [2023-10-19 Thu 22:54] SCHEDULED: <2023-10-19 Thu>
*** KILL Snpeff
SCHEDULED: <2023-10-19 Thu>
CLOSED: [2023-10-19 Thu 10:42]
Base de données non disponible
*** KILL Garder les transcrits canonique puis filtrer sur conséquence
CLOSED: [2023-10-19 Thu 22:54] SCHEDULED: <2023-10-19 Thu>
/Entered on/ [2023-10-19 Thu 11:23]
** DONE [#B] Indicateurs qualité :qualité:
CLOSED: [2023-09-10 Sun 16:46]
*** Idée
Raredisease:
- FastQC : nombreuses statistiques. Non disponible Nix
- Mosdepth : calcule la profondeur (2x plus rapide que samtools depth). Nix
- MultiQC : fusionne juste les résultats des analyses. Non disponible nix
- Picard's CollectMutipleMetrics, CollectHsMetrics, and CollectWgsMetrics
- Qualimap : alternative fastqc ? Non disponible nix
- Sentieon's WgsMetricsAlgo : propriétaire
- TIDDIT's cov : TIDIT = remaninement chromosomique
Sarek:
- alignment statistics : samtools stats, mosdepth
- QC : MultiQC
MultiQC : non disponible Nix
*** DONE FastqQC
CLOSED: [2023-08-15 Tue 21:43] SCHEDULED: <2023-08-13 Sun>
*** DONE Mosdepth
CLOSED: [2023-08-15 Tue 21:43] SCHEDULED: <2023-08-13 Sun>
Pour exomple, il faut le fichier de capture
subworkflows/local/bam_markduplicates/
*** DONE Samtools stats
CLOSED: [2023-08-15 Tue 21:43] SCHEDULED: <2023-08-13 Sun>
*** DONE [#B] Compte-redu exécution avec MultiQC
CLOSED: [2023-08-15 Tue 21:43] SCHEDULED: <2023-08-13 Sun>
*** DONE Résultats sur NA12878 : 98% à 20x
CLOSED: [2023-08-19 Sat 20:45] SCHEDULED: <2023-08-17 Thu>
**** DONE Comprendre 91% à 20x seulement: SNVs inséré
CLOSED: [2023-08-18 Fri 22:25]
***** DONE Tester autre kit : Twist exome comprehensive
CLOSED: [2023-08-18 Fri 22:24]
Moins bon
***** DONE Tester génome sans alt
CLOSED: [2023-08-18 Fri 22:25]
Idem
***** DONE Tester NA12878 sans SNVs inséré: cause !!
CLOSED: [2023-08-18 Fri 22:25]
***** DONE Tester hg19 sur NA12878 non inséré
CLOSED: [2023-08-18 Fri 22:25]
**** DONE Comprendre pourquoi SNVs diminuent le score: reads manquants
CLOSED: [2023-08-19 Sat 20:34] SCHEDULED: <2023-08-18 Fri>
Voir [[id:5c1c36f3-f68e-4e6d-a7b6-61dca89abc37][Bug: perte de nombreux reads avec NA12878]]
*** DONE Relancer résultats avec NA1287 et NA12878 + sanger
CLOSED: [2023-08-29 Tue 10:30] SCHEDULED: <2023-08-29 Tue>
*** DONE Comparer avec hg19
CLOSED: [2023-08-28 Mon 17:22] SCHEDULED: <2023-08-20 Sun>
*** DONE Comparer avec autres kit de capture
CLOSED: [2023-08-28 Mon 17:22] SCHEDULED: <2023-08-20 Sun>
*** DONE Comparer avec no-alt
CLOSED: [2023-08-28 Mon 17:22] SCHEDULED: <2023-08-20 Sun>
** HOLD vérifier si normalisation
** KILL [#B] Vérification nomenclature hgvs :hgvs:
CLOSED: [2023-08-16 Wed 19:07] SCHEDULED: <2023-08-15 Tue>
*** KILL mutalyzer
CLOSED: [2023-08-16 Wed 19:07] SCHEDULED: <2023-08-13 Sun>
*** KILL API variantvalidator
CLOSED: [2023-08-16 Wed 19:07] SCHEDULED: <2023-08-13 Sun>
** DONE Exécution
CLOSED: [2022-09-13 Tue 21:37]
*** KILL test Bionix
*** KILL Implémenter execution avec Nix ?
Voir https://academic.oup.com/gigascience/article/9/11/giaa121/5987272?login=false
pour un exemple.
Probablement plus simple d’utiliser Nix pour gestion de l’environnement et snakemake pour l’exécution
Pas d’accès internet depuis le cluster
*** DONE nextflow
CLOSED: [2022-09-13 Tue 21:37]
**** TODO Bug scheduler SGE
Le job se fait tuer car l'utilisateur n'est pas passé correctement à nextflow
***** DONE Forcer l'utilisateur à l'exécution
CLOSED: [2023-04-01 Sat 17:57]
NXF_OPTS=-D"user.name=alex"
***** DONE Vérifier si le problème persiste avec 22.10.6
CLOSED: [2023-04-01 Sat 18:38] SCHEDULED: <2023-04-01 Sat>
oui
***** KILL Packager l'utilisateur dans le programme ?
Mauvaise idée..
*** DONE Diminuer mémoire pour haplotypecaller
CLOSED: [2023-09-20 Wed 21:44] SCHEDULED: <2023-09-19 Tue>
/Entered on/ [2023-09-19 Tue 15:30]
Medium = 32Go pour 6 coeurs => 4 jobs (donc tout le noeud) prend plus que les 96GB...
On essaie 16Gb
Puis commit
*** DONE Report multiqc avec 10 runs
CLOSED: [2023-09-19 Tue 15:31] SCHEDULED: <2023-09-19 Tue>
/Entered on/ [2023-09-19 Tue 15:31]
Cf mail 2023-09-19
*** DONE Bug: variant sur 7788314 pour patient 62982193 filtré : DP < 30
CLOSED: [2023-10-02 Mon 21:58] SCHEDULED: <2023-09-25 Mon>
/Entered on/ [2023-09-22 Fri 22:59]
35 selon IGV mais 27 en pratique dans le VCF.
VCF cento: 26 reads également...
VOUS, non confirmé sanger
Mail envoyé Alexis
Vu avec Paul : on laisse DP >= 30 si c'est la seule occurence
*** DONE Bug mésohelios: les jobs se font killer :bug:
CLOSED: [2023-10-13 Fri 11:44]
/Entered on/ [2023-10-11 Wed 12:06]
**** DONE Comprendre pourquoi
CLOSED: [2023-10-11 Wed 16:06] SCHEDULED: <2023-10-11 Wed>
Utilisateurs déconnectés à 4h du matin tous les jours
**** DONE Démarrer nextflow avec sbatch
CLOSED: [2023-10-13 Fri 11:07] SCHEDULED: <2023-10-11 Wed>
On retrouve le même bug avec squeue qui n'arrive pas à retrouver l'utilisateur en utilisant nextflow+nix
Même en forcant USER et export NXF_OPTS='-D"user.name=apraga"'
Test avec la version packagée sur mésocentre (il faut mettre à la main le dossier...): ok
#+begin_src sh
module load nextflow@23.04.3/gcc-12.1.0
# Force it
nextflow="/Softs/spack/opt/spack/linux-rocky8-x86_64/gcc-12.1.0/nextflow-23.04.3-qputqf2dmtvabpv76miz
4 | Acc | 0.0000003317384 | No | Acc | 89894637 | 7 | 89894644 | 0.0000002205815 | No | 89894637 | 0.02545572 | No | 0.02545572 | No |
| | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | | |
**** DONE Vérifier multiples transcripts en hg38 avec coordonées génomiquues: ok
CLOSED: [2023-08-10 Thu 23:00]
Beaucoup plus de transcrits en T2T
Ex: 1 transcrit refseq curated
http://genome.ucsc.edu/cgi-bin/hgTracks?db=hg38&lastVirtModeType=default&lastVirtModeExtraState=&virtModeType=default&virtMode=0&nonVirtPosition=&position=chr11%3A108257446%2D108257496&hgsid=1672963428_J5aWAqack2FpJ7mvhFTNVw7bKzxo
vs 2 transcrits en T2T
http://genome.ucsc.edu/cgi-bin/hgTracks?db=hub_3671779_hs1&lastVirtModeType=default&lastVirtModeExtraState=&virtModeType=default&virtMode=0&nonVirtPosition=&position=chr11%3A108264969%2D108265019&hgsid=1672963612_Eso9frdQ7z6RkKkcKsIf2Waq3pec
C'est bien ce qu'on retrouve avec spip
*** DONE [#A] Filtre vep avec spip
CLOSED: [2023-08-13 Sun 00:39] SCHEDULED: <2023-08-12 Sat 19:00>
*** DONE Annotation CADD + spliceAI GRCh38 avec nouvelle version :annotation:
CLOSED: [2023-08-28 Mon 17:21] SCHEDULED: <2023-08-20 Sun>
*** DONE OMIM: possible seulement sur nom du gènes:annotation:
CLOSED: [2023-08-13 Sun 11:57] SCHEDULED: <2023-08-13 Sun 16:00>
Base de données non disponible et compliqué de faire la mise à jour nous.
Si on essaie de prendre les gènes de GRCH38, ils ne sont pas forcément en T2T
Ex: DDX11L17 n'existe pas dans T2T à ces coordonées
zgrep DDX11L17 GCF_009914755.1_T2T-CHM13v2.0_genomic.gff.gz
Note: c'est un pseudogene
https://www.genecards.org/cgi-bin/carddisp.pl?gene=DDX11L17
Si on prend les gènes de T2T, il y en a des nouveaux.
Ex: le premier est LOC101928626.
À cette position, rien en GRCh38
Si on essaye avec ENSEMBL: non car n'ont pas le même identifiant
Ex: ACHE
Idéalement, il faudrait l'identifiant NCBI (disponible dans OMIM) mais n'est pas en sortie de VEP
Et cela demande la version "merged" donc impossible en T2T
Est-ce faisable de faire une chr10129957338-T-Ccorrespondance sur le nom du gène ?
Tous les gènes de T2T:
#+begin_src sh :dir ~/Downloads
zgrep -o "ID=gene[^;]*;" GCF_009914755.1_T2T-CHM13v2.0_genomic.gff.gz | sed 's/ID=gene-//;s/;//' | sort | uniq > t2t-genes.txt
wc -l t2t-genes.txt
#+end_src
#+RESULTS:
: 57660 t2t-genes.txt
#+begin_src sh :dir ~/Downloads
zgrep -o "ID=gene[^;]*;" GCF_000001405.40_GRCh38.p14_genomic.gff.gz | sed 's/ID=gene-//;s/;//' | sort | uniq > hg38-genes.txt
wc -l hg38-genes.txt
#+end_src
#+RESULTS:
: 67127 hg38-genes.txt
Gènes communs aux 2
#+begin_src sh :dir ~/Downloads
comm -12 t2t-genes.txt hg38-genes.txt | wc -l
#+end_src
#+RESULTS:
: 54506
Gènes uniquements dans t2t
#+begin_src sh :dir ~/Downloads
comm -23 t2t-genes.txt hg38-genes.txt | wc -l
#+end_src
#+RESULTS:
: 3154
Gènes uniquements dans GRCh38
#+begin_src sh :dir ~/Downloads
comm -13 t2t-genes.txt hg38-genes.txt | wc -l
#+end_src
#+RESULTS:
: 12621
*** HOLD OMIM sur nom du gène :annotation:
*** DONE Mobidetails API
CLOSED: [2023-09-10 Sun 16:44]
Trop long ... 1h à 1h30 d'exécution
Disponible dans module
*** DONE Filtre vep avec spip for T2T et spliceAI pour GRCh38
CLOSED: [2023-09-16 Sat 22:47]
*** DONE Repasser tests en GRCh38 avec nouveau filtre (spip ou splice ai) :sanger:
CLOSED: [2023-09-17 Sun 09:07] SCHEDULED: <2023-09-16 Sat>
*** HOLD Franklin API
https://www.postman.com/genoox-ps/workspace/franklin-api-documentation-s-public-workspace/documentation/6621518-4335389d-12e3-445f-8182-339df95b2a09
*** KILL Regarder si clinique disponible avec vep :annotation:
CLOSED: [2023-09-10 Sun 16:44]
*** TODO Filtrer suffisament après annotation
**** DONE Tester filtre sans splice: 6130 mais il en manque 4
CLOSED: [2023-10-18 Wed 22:50] SCHEDULED: <2023-09-27 Wed>
Mail Paul: Exome donc hors splice, peu intéressant
***** DONE Enlever complètement condition splice: 6130 variants restants...
CLOSED: [2023-09-27 Wed 19:37] SCHEDULED: <2023-09-26 Tue>
Cf [[id:c9b2009a-503b-4561-94c6-29ae21a3188d][Filtre vep avec spliceAI: 37365 -> 6130]]
Dans tests/splicai
#+begin_src sh
filter_vep -i output-all-gpu.vcf --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --only_matched -o test.vcf
grep -c -v '^#' test.vcf
6130
#+end_src
***** DONE Remplacer par impact fonctionnel: peu d'impact : majorité = MODERATE
CLOSED: [2023-09-27 Wed 19:45] SCHEDULED: <2023-09-26 Tue>
filter_vep -i output-all-gpu-filtered.vcf --format vcf --filter "IMPACT is HIGH" --only_matched | grep -c -v '^#'
258
filter_vep -i output-all-gpu-filtered.vcf --format vcf --filter "IMPACT is LOW" --only_matched | grep -c -v '^#'
11
filter_vep -i output-all-gpu-filtered.vcf --format vcf --filter "IMPACT is MODERATE" --only_matched | grep -c -v '^#'
5824
***** DONE Regarder les conséquences pour tes les transcripts
CLOSED: [2023-09-27 Wed 21:04]
/Work/Users/apraga/bisonex/out/annotate/vep/NA12878-sanger-all-T2T
filter_vep -i NA12878-sanger-all-T2T.vep.vcf.gz --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --only_matched -o filtered.vcf
bcftools +split-vep filtered.vcf -f '%Consequence\n' -d | sort | uniq -c
94 coding_sequence_variant
13 coding_sequence_variant&NMD_transcript_variant
257 frameshift_variant
21 frameshift_variant&NMD_transcript_variant
2 frameshift_variant&splice_donor_region_variant
20 frameshift_variant&splice_region_variant
1 frameshift_variant&splice_region_variant&NMD_transcript_variant
1 incomplete_terminal_codon_variant&coding_sequence_variant
211 inframe_deletion
18 inframe_deletion&NMD_transcript_variant
6 inframe_deletion&splice_region_variant
242 inframe_insertion
22 inframe_insertion&NMD_transcript_variant
4 inframe_insertion&splice_region_variant
14689 missense_variant
1416 missense_variant&NMD_transcript_variant
6 missense_variant&splice_donor_5th_base_variant
374 missense_variant&splice_region_variant
34 missense_variant&splice_region_variant&NMD_transcript_variant
53 splice_acceptor_variant
11 splice_acceptor_variant&NMD_transcript_variant
79 splice_donor_variant
6 splice_donor_variant&NMD_transcript_variant
30 start_lost
5 start_lost&NMD_transcript_variant
135 stop_gained
13 stop_gained&frameshift_variant
3 stop_gained&frameshift_variant&NMD_transcript_variant
2 stop_gained&frameshift_variant&splice_region_variant
14 stop_gained&NMD_transcript_variant
5 stop_gained&splice_region_variant
2 stop_gained&splice_region_variant&NMD_transcript_variant
4 stop_lost
1 stop_lost&NMD_transcript_variant
9 stop_retained_variant
6 stop_retained_variant&NMD_transcript_variant
1 transcript_ablation
Idem tests/spliceai
bcftools +split-vep output-all-gpu-filtered.vcf -f '%Consequence\n' -d | sort | uniq -c
94 coding_sequence_variant
13 coding_sequence_variant&NMD_transcript_variant
257 frameshift_variant
21 frameshift_variant&NMD_transcript_variant
2 frameshift_variant&splice_donor_region_variant
20 frameshift_variant&splice_region_variant
1 frameshift_variant&splice_region_variant&NMD_transcript_variant
1 incomplete_terminal_codon_variant&coding_sequence_variant
211 inframe_deletion
18 inframe_deletion&NMD_transcript_variant
6 inframe_deletion&splice_region_variant
242 inframe_insertion
22 inframe_insertion&NMD_transcript_variant
4 inframe_insertion&splice_region_variant
14689 missense_variant
1416 missense_variant&NMD_transcript_variant
6 missense_variant&splice_donor_5th_base_variant
374 missense_variant&splice_region_variant
34 missense_variant&splice_region_variant&NMD_transcript_variant
53 splice_acceptor_variant
11 splice_acceptor_variant&NMD_transcript_variant
79 splice_donor_variant
6 splice_donor_variant&NMD_transcript_variant
30 start_lost
5 start_lost&NMD_transcript_variant
135 stop_gained
13 stop_gained&frameshift_variant
3 stop_gained&frameshift_variant&NMD_transcript_variant
2 stop_gained&frameshift_variant&splice_region_variant
14 stop_gained&NMD_transcript_variant
5 stop_gained&splice_region_variant
2 stop_gained&splice_region_variant&NMD_transcript_variant
4 stop_lost
1 stop_lost&NMD_transcript_variant
9 stop_retained_variant
6 stop_retained_variant&NMD_transcript_variant
1 transcript_ablation
***** DONE Regarder les conséquences pour -s worst
CLOSED: [2023-09-27 Wed 21:04]
/Work/Users/apraga/bisonex/out/annotate/vep/NA12878-sanger-all-T2T
Après filtre_vep sans splice
]$ bcftools +split-vep filtered.vcf -f '%Consequence\n' -d -s worst | sort | uniq -c
48 coding_sequence_variant
6 coding_sequence_variant&nmd_transcript_variant
121 frameshift_variant
9 frameshift_variant&nmd_transcript_variant
1 frameshift_variant&splice_donor_region_variant
9 frameshift_variant&splice_region_variant
79 inframe_deletion
3 inframe_deletion&nmd_transcript_variant
2 inframe_deletion&splice_region_variant
85 inframe_insertion
2 inframe_insertion&nmd_transcript_variant
1 inframe_insertion&splice_region_variant
5309 missense_variant
207 missense_variant&nmd_transcript_variant
3 missense_variant&splice_donor_5th_base_variant
110 missense_variant&splice_region_variant
9 missense_variant&splice_region_variant&nmd_transcript_variant
19 splice_acceptor_variant
1 splice_acceptor_variant&nmd_transcript_variant
21 splice_donor_variant
1 splice_donor_variant&nmd_transcript_variant
14 start_lost
44 stop_gained
4 stop_gained&frameshift_variant
2 stop_gained&frameshift_variant&splice_region_variant
3 stop_gained&nmd_transcript_variant
3 stop_gained&splice_region_variant
2 stop_gained&splice_region_variant&nmd_transcript_variant
2 stop_lost
1 stop_lost&nmd_transcript_variant
6 stop_retained_variant
2 stop_retained_variant&nmd_transcript_variant
1 transcript_ablation
Dans tests/spliceai
$ bcftools +split-vep output-all-gpu-filtered.vcf -f '%Consequence\n' -s worst -d | sort | uniq -c
48 coding_sequence_variant
6 coding_sequence_variant&nmd_transcript_variant
121 frameshift_variant
9 frameshift_variant&nmd_transcript_variant
1 frameshift_variant&splice_donor_region_variant
9 frameshift_variant&splice_region_variant
79 inframe_deletion
3 inframe_deletion&nmd_transcript_variant
2 inframe_deletion&splice_region_variant
85 inframe_insertion
2 inframe_insertion&nmd_transcript_variant
1 inframe_insertion&splice_region_variant
5309 missense_variant
207 missense_variant&nmd_transcript_variant
3 missense_variant&splice_donor_5th_base_variant
110 missense_variant&splice_region_variant
9 missense_variant&splice_region_variant&nmd_transcript_variant
19 splice_acceptor_variant
1 splice_acceptor_variant&nmd_transcript_variant
21 splice_donor_variant
1 splice_donor_variant&nmd_transcript_variant
14 start_lost
44 stop_gained
4 stop_gained&frameshift_variant
2 stop_gained&frameshift_variant&splice_region_variant
3 stop_gained&nmd_transcript_variant
3 stop_gained&splice_region_variant
2 stop_gained&splice_region_variant&nmd_transcript_variant
2 stop_lost
1 stop_lost&nmd_transcript_variant
6 stop_retained_variant
2 stop_retained_variant&nmd_transcript_variant
1 transcript_ablation
***** KILL Vérifier si tests sanger passent: non
CLOSED: [2023-09-28 Thu 01:33] SCHEDULED: <2023-09-27 Wed>
│ String Float64 Int64
─────┼───────────────────────────────────────
1 │ chr10:g.130884530 60.0 67
2 │ chr10:g.240362 60.0 79
3 │ chr14:g.52665581 60.0 51
4 │ chr19:g.41325390 60.0 180
***** DONE Comparer aux filtres en GRCh38: ce sont bien les filtres hors splice...
CLOSED: [2023-10-17 Tue 21:12]
T2T:
filter_vep -i 2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.vep.vcf.gz --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --only_matched | bcftools +counts
Number of samples: 1
Number of SNPs: 5362
Number of INDELs: 325
Number of MNPs: 323
Number of others: 0
Number of sites: 5991
GRCh38
filter_vep -i 2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.vep.vcf.gz --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --only_matched | bcftools +counts
Number of samples: 1
Number of SNPs: 1182
Number of INDELs: 143
Number of MNPs: 535
Number of others: 0
Number of sites: 1840
***** DONE Proportions de conséquence : T2T vs GRCh38 avec multiqc: idem
CLOSED: [2023-10-17 Tue 21:00]
À l'oeil
***** Réexaminer les conséquences
****** DONE Impact fonctionnel: plus de LOW et de MODIFIER++
CLOSED: [2023-10-17 Tue 21:22]
T2T
bcftools +split-vep 2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.filtervep.vcf -f '%IMPACT\n' -d | sort | uniq -c
596 HIGH
2828 LOW
16314 MODERATE
11261 MODIFIER
GRCh38
bcftools +split-vep 2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.filtervep.vcf -f '%IMPACT\n' -d | sort | uniq -c
414 HIGH
466 LOW
10054 MODERATE
550 MODIFIER
****** DONE Pire conséquence: trop de missense
CLOSED: [2023-10-17 Tue 21:23]
GRCh38
$ bcftools +split-vep 2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.filtervep.vcf -f '%Consequence\n' -d -s worst | sort | uniq -c
2 3_prime_utr_variant&nmd_transcript_variant
1 5_prime_utr_variant
2 coding_sequence_variant
47 frameshift_variant
6 frameshift_variant&nmd_transcript_variant
1 frameshift_variant&splice_donor_region_variant
1 frameshift_variant&splice_region_variant
1 frameshift_variant&start_lost&start_retained_variant
37 inframe_deletion
9 inframe_deletion&nmd_transcript_variant
27 inframe_insertion
5 inframe_insertion&nmd_transcript_variant
21 intron_variant
1593 missense_variant
37 missense_variant&nmd_transcript_variant
17 missense_variant&splice_region_variant
1 missense_variant&splice_region_variant&nmd_transcript_variant
1 protein_altering_variant
1 splice_acceptor_variant
1 splice_acceptor_variant&frameshift_variant
2 splice_acceptor_variant&nmd_transcript_variant
3 splice_donor_5th_base_variant&intron_variant
1 splice_donor_5th_base_variant&intron_variant&non_coding_transcript_variant
2 splice_donor_region_variant&intron_variant
1 splice_donor_region_variant&intron_variant&nmd_transcript_variant
1 splice_donor_region_variant&intron_variant&non_coding_transcript_variant
10 splice_donor_variant
1 splice_donor_variant&non_coding_transcript_variant
11 splice_polypyrimidine_tract_variant&intron_variant
1 splice_polypyrimidine_tract_variant&intron_variant&non_coding_transcript_variant
1 splice_region_variant&intron_variant
9 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant
3 splice_region_variant&synonymous_variant
1 splice_region_variant&synonymous_variant&nmd_transcript_variant
4 start_lost
19 stop_gained
2 stop_gained&frameshift_variant
2 stop_gained&nmd_transcript_variant
1 stop_gained&splice_region_variant
1 stop_gained&splice_region_variant&nmd_transcript_variant
3 stop_lost
2 stop_lost&nmd_transcript_variant
1 stop_retained_variant
18 synonymous_variant
1 synonymous_variant&nmd_transcript_variant
1 transcript_ablation
T2T
[apraga@mesointeractive filter]$ bcftools +split-vep 2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.filtervep.vcf -f '%Consequence\n' -d -s worst | sort | uniq -c
15 3_prime_utr_variant
11 3_prime_utr_variant&nmd_transcript_variant
51 5_prime_utr_variant
3 5_prime_utr_variant&nmd_transcript_variant
48 coding_sequence_variant
5 coding_sequence_variant&nmd_transcript_variant
3 downstream_gene_variant
121 frameshift_variant
9 frameshift_variant&nmd_transcript_variant
1 frameshift_variant&splice_donor_region_variant
9 frameshift_variant&splice_region_variant
78 inframe_deletion
2 inframe_deletion&nmd_transcript_variant
2 inframe_deletion&splice_region_variant
84 inframe_insertion
2 inframe_insertion&nmd_transcript_variant
1 inframe_insertion&splice_region_variant
16 intergenic_variant
368 intron_variant
21 intron_variant&nmd_transcript_variant
71 intron_variant&non_coding_transcript_variant
5187 missense_variant
207 missense_variant&nmd_transcript_variant
3 missense_variant&splice_donor_5th_base_variant
105 missense_variant&splice_region_variant
9 missense_variant&splice_region_variant&nmd_transcript_variant
33 non_coding_transcript_exon_variant
12 splice_acceptor_variant
1 splice_acceptor_variant&5_prime_utr_variant&intron_variant&nmd_transcript_variant
1 splice_acceptor_variant&nmd_transcript_variant
3 splice_acceptor_variant&non_coding_transcript_variant
1 splice_acceptor_variant&splice_polypyrimidine_tract_variant&intron_variant&nmd_transcript_variant
16 splice_donor_5th_base_variant&intron_variant
2 splice_donor_5th_base_variant&intron_variant&non_coding_transcript_variant
33 splice_donor_region_variant&intron_variant
4 splice_donor_region_variant&intron_variant&nmd_transcript_variant
7 splice_donor_region_variant&intron_variant&non_coding_transcript_variant
19 splice_donor_variant
1 splice_donor_variant&nmd_transcript_variant
2 splice_donor_variant&non_coding_transcript_variant
3 splice_donor_variant&splice_donor_5th_base_variant&coding_sequence_variant&intron_variant
64 splice_polypyrimidine_tract_variant&intron_variant
6 splice_polypyrimidine_tract_variant&intron_variant&nmd_transcript_variant
8 splice_polypyrimidine_tract_variant&intron_variant&non_coding_transcript_variant
2 splice_region_variant&3_prime_utr_variant
2 splice_region_variant&5_prime_utr_variant
4 splice_region_variant&intron_variant
6 splice_region_variant&non_coding_transcript_exon_variant
54 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant
4 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant&nmd_transcript_variant
5 splice_region_variant&splice_polypyrimidine_tract_variant&intron_variant&non_coding_transcript_variant
27 splice_region_variant&synonymous_variant
13 start_lost
31 stop_gained
4 stop_gained&frameshift_variant
2 stop_gained&frameshift_variant&splice_region_variant
3 stop_gained&nmd_transcript_variant
2 stop_gained&splice_region_variant
2 stop_gained&splice_region_variant&nmd_transcript_variant
2 stop_lost
1 stop_lost&nmd_transcript_variant
6 stop_retained_variant
2 stop_retained_variant&nmd_transcript_variant
349 synonymous_variant
17 synonymous_variant&nmd_transcript_variant
1 transcript_ablation
2 upstream_gene_variant
**** DONE Regarder annotation VEP des variants sur NA12878 non trataié :na12878:
CLOSED: [2023-10-18 Wed 22:50] SCHEDULED: <2023-10-16 Mon>
/Entered on/ [2023-10-16 Mon 19:39]
**** DONE Regarder si les variants sont dans des zones modifiées de T2T
CLOSED: [2023-10-19 Thu 17:19] SCHEDULED: <2023-10-18 Wed>
/Entered on/ [2023-10-18 Wed 22:49]
Liftover des variants de GRCh38 -> T2T
Cf ~/roam/research/bisonex/code/t2t/comparePositions.jl
#+begin_quote
Successfully converted 1896 records: View Conversions
Conversion failed on 17 records.
#+end_quote
On utilise t2tOnly()
Proportion par chromosome
julia> @by d :Column1 $nrow
24×2 DataFrame
Row │ Column1 nrow
│ String7 Int64
─────┼────────────────
1 │ chr1 678
2 │ chr2 369
3 │ chr3 287
4 │ chr4 224
5 │ chr5 258
6 │ chr6 430
7 │ chr7 321
8 │ chr8 218
9 │ chr9 251
10 │ chr10 275
11 │ chr11 489
12 │ chr12 350
13 │ chr13 74
14 │ chr14 185
15 │ chr15 171
16 │ chr16 283
17 │ chr17 364
18 │ chr18 82
19 │ chr19 550
20 │ chr20 142
21 │ chr21 93
22 │ chr22 171
23 │ chrX 98
24 │ chrY 1
**** DONE Regarder si les variants sont sur des nouveaux gènes
CLOSED: [2023-10-19 Thu 20:18] SCHEDULED: <2023-10-19 Thu>
Cf ~/roam/reasearch/bisonex/code/t2t/compareGene.jl
Test de la fonction pour extraire les gènes:
Important: les chiffres ne sont pas données sur le nom du gène seul mais sur le nom + la position. On ne supprime donc pas les noms en double"
- T2T
- refseq + liftoff, 20 008, The official webpage says 20 006 for v4 https://ccb.jhu.edu/T2T.shtml.
- Gencode38 19490
- GRCh38
- refseq we have 23 314, so 4 less than the official website : https://www.ncbi.nlm.nih.gov/datasets/gene/GCF_000001405.40/?gene_type=protein-coding
On choisit refseq:: Il y a 170 gènes (unique sur le nom du gène !) dans T2T non présents dans GRCh38-p14
À noter qu'il y a plus de gènes dans Refseq en GRC38-p14 qu'en T2T (20 080 > 19 748 )
Avec compareGene.j, on retrouve 0.73%
**** DONE Annotation avec vep + GTF (dernière versio): n'aide pas
CLOSED: [2023-10-20 Fri 00:16] SCHEDULED: <2023-10-19 Thu>
https://www.science.org/doi/10.1126/science.abj6987#core-R61
/Entered on/ [2023-10-19 Thu 10:41]
#+begin_src sh :dir "meso://Work/Users/apraga/bisonex/test/t2t"
wget https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/CHM13/assemblies/annotation/chm13v2.0_RefSeq_Liftoff_v5.1.gff3.gz
zgrep -v "#" chm13v2.0_RefSeq_Liftoff_v5.1.gff3.gz | sort -k1,1 -k4,4n -k5,5n -t$'\t' | bgzip -c > chm13v2.0_RefSeq_prepared.gff3.gz
tabix -p gff chm13v2.0_RefSeq_prepared.gff3.gz
#+end_src
# ./vep -i input.vcf --gff data.gff.gz --fasta genome.fa.gz
Dans ce dossier, on annote
#+begin_src sh
vep -i ../../out/annotate/vep/2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.vep.vcf.gz --gff chm13v2.0_RefSeq_prepared.gff3.gz --fasta /Work/Groups/bisonex/data/fasta/chm13v2.0/chm13v2.0.fa --vcf -o na12878_annotated.vcf
#+end_src
Et on filtre
#+begin_src sh
filter_vep -i na12878_annotated.vcf --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --only_matched > na12878_annotated_filtered.vcf
#+end_src
Idem
grep -c -v '#' na12878_annotated_filtered.vcf
6368
**** DONE Figure propre pour position des variants
CLOSED: [2023-10-19 Thu 15:41] SCHEDULED: <2023-10-19 Thu>
**** DONE Nombre de variants dans les zones exclusives à T2T
CLOSED: [2023-10-19 Thu 16:39] SCHEDULED: <2023-10-19 Thu>
Zones unique à T2T données par : https://genome.ucsc.edu/cgi-bin/hgTrackUi?hgsid=1735553302_OcJ6esPoUFcSykF6hKiRmIGU24KD&db=hub_3267197_GCA_009914755.4&c=CP068269.2&g=hub_3267197_hgUnique
Note: le .fai donné ( https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/CHM13/assemblies/analysis_set/chm13v2.0.fa.gz.gzi ) cause un problème aec bcftools :
Chromosome "" defined twice in chm13v2.0.fa.gz.gzi
On utilise donc l'index regénér sur le mésocentre
#+begin_src sh :dir "/home/alex/roam/research/bisonex/code/t2t"
wget https://s3-us-west-2.amazonaws.com/human-pangenomics/T2T/CHM13/assemblies/chain/v1_nflo/grch38-chm13v2.paf
scp meso:/Work/Projects/bisonex/data/fasta/chm13v2.0/chm13v2.0.fa.fai .
cut -f 1,3,4 grch38-chm13v2.paf | bedtools sort -i - -g chm13v2.0.fa.fai | bedtools merge | bedtools complement -g chm13v2.0.fa.fai -i - | bedtools merge | save T2T-CHM13v2.0_unique_regions_hg38.bed -f
#+end_src
#+RESULTS:
On génère le BED des variants supplémentaires en T2T avec
Puis
#+begin_src sh :dir "/home/alex/roam/research/bisonex/code/t2t"
bedtools intersect -a na12878-t2t-only.bed -b T2T-CHM13v2.0_unique_regions_hg38.bed > na12878-t2t-only-unique.bed
wc -l na12878-t2t-only.bed
wc -l na12878-t2t-only-unique.bed
#+end_src
#+RESULTS:
| 6364 | na12878-t2t-only.bed |
| 47 | na12878-t2t-only-unique.bed |
Donc 0.73% sont dans des zones unique
**** KILL Comparer l'annotation sur 1 variant filtré en GRCh388 et non filtré en T2T
CLOSED: [2023-10-19 Thu 22:54] SCHEDULED: <2023-10-19 Thu>
**** KILL Snpeff
SCHEDULED: <2023-10-19 Thu>
CLOSED: [2023-10-19 Thu 10:42]
Base de données non disponible
**** DONE Garder les transcrits canonique: reste nombreux
CLOSED: [2023-10-20 Fri 23:46] SCHEDULED: <2023-10-19 Thu>
/Entered on/ [2023-10-19 Thu 11:23]
***** Test GRCH38
Dans /Work/Users/apraga/bisonex/test/t2t
On vérifie qu'afficher CANONICAL ne montre que les transcrits canoniques
#+begin_src sh
bcftools +split-vep /Work/Users/apraga/bisonex/out/annotate/vep/2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.vep.vcf.gz -f '%CHROM:%POS %CANONICAL\n' -d | wc -l
20366
bcftools +split-vep /Work/Users/apraga/bisonex/out/annotate/vep/2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.vep.vcf.gz -f '%CHROM:%POS\n' -d | wc -l
90865
#+end_src
On peut aussi filtrer les transcrits canoniques seuls
#+begin_src sh
bcftools +split-vep /Work/Users/apraga/bisonex/out/annotate/vep/2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.vep.vcf.gz -f '%CHROM:%POS %Consequence\n' -i 'CANONICAL="YES"' -d | wc -l
20366
#+end_src
****** Après VEP: canonique et missense ou pire: 1528 transcrits
#+begin_src sh
bcftools +split-vep /Work/Users/apraga/bisonex/out/annotate/vep/2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.vep.vcf.gz -f '%CHROM:%POS %Consequence\n' -i 'CANONICAL="YES"' -d -s worst:missense+ | wc -l
1528
****** Après filtre vep: canonique et missense ou pire: 1255 transcrits
#+begin_src sh
bcftools +split-vep /Work/Users/apraga/bisonex/out/annotate/filter/2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.filtervep.vcf -f '%CHROM:%POS %Consequence\n' -i 'CANONICAL="YES"' -d | wc -l
3519
bcftools +split-vep /Work/Users/apraga/bisonex/out/annotate/filter/2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.filtervep.vcf -f '%CHROM:%POS %Consequence\n' -i 'CANONICAL="YES"' -d -s worst:missense+| wc -l
1255
#+end_src
****** Notre filtre vep + canonique: 2216 variants
#+begin_src
filter_vep -i /Work/Users/apraga/bisonex/out/annotate/vep/2300346867_NA12878-63118093_S260-GRCh38/2300346867_NA12878-63118093_S260-GRCh38.vep.vcf.gz --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --filter "CANONICAL is YES" --only_matched | wc -l
2216
#+end_src
***** Test T2T
50 000 vs 30 000
#+begin_src sh
bcftools +split-vep /Work/Users/apraga/bisonex/out/annotate/vep/2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.vep.vcf.gz -f '%CHROM:%POS %Consequence\n' -i 'CANONICAL="YES"' -d | wc -l
50142
#+end_src
****** Apres VEP: canonique et missense ou pire: 4615 transcrits
#+begin_src sh
bcftools +split-vep /Work/Users/apraga/bisonex/out/annotate/vep/2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.vep.vcf.gz -f '%CHROM:%POS %Consequence\n' -i 'CANONICAL="YES"' -d -s worst:missense+ | wc -l
#+end_src
****** Après filtre vep: canonique et missense ou pire : 3734 transcrits (et 3734 variants)
#+begin_src sh
bcftools +split-vep /Work/Users/apraga/bisonex/out/annotate/filter/2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.filtervep.vcf -f '%CHROM:%POS %Consequence\n' -i 'CANONICAL="YES"' -d -s worst:missense+ | wc -l
#+end_src
****** Notre filtre vep + canonique: 5539 variants
#+begin_src sh
filter_vep -i /Work/Users/apraga/bisonex/out/annotate/vep/2300346867_NA12878-63118093_S260-T2T/2300346867_NA12878-63118093_S260-T2T.vep.vcf.gz --format vcf --filter " not(Consequence matches non_coding_transcript or Consequence matches stream or Consequence matches intergenic_variant or Consequence matches UTR or Consequence matches intron_variant or Consequence matches synonymous or BIOTYPE matches pseudogene or BIOTYPE matches misc_RNA)" --filter "CANONICAL is YES" --only_matched | wc -l
5539
#+end_src
**** KILL Vérifier fréquence gnomad: non disponible dans cache
CLOSED: [2023-10-20 Fri 23:24] SCHEDULED: <2023-10-20 Fri>
Pas de sortie gnomad ? On teste dans /Work/Users/apraga/bisonex/test/t2t/gnomad
On copie les smlink
#+begin_src sh
cp -P /Work/Users/apraga/bisonex/work/98/967730e87f1bd228dbd68725a1ef7d/* .
cp /Work/Users/apraga/bisonex/work/98/967730e87f1bd228dbd68725a1ef7d/.command.sh .
rm *.spip.*
rm *.vep.*
#+end_src
** DONE [#B] Indicateurs qualité :qualité:
CLOSED: [2023-09-10 Sun 16:46]
*** Idée
Raredisease:
- FastQC : nombreuses statistiques. Non disponible Nix
- Mosdepth : calcule la profondeur (2x plus rapide que samtools depth). Nix
- MultiQC : fusionne juste les résultats des analyses. Non disponible nix
- Picard's CollectMutipleMetrics, CollectHsMetrics, and CollectWgsMetrics
- Qualimap : alternative fastqc ? Non disponible nix
- Sentieon's WgsMetricsAlgo : propriétaire
- TIDDIT's cov : TIDIT = remaninement chromosomique
Sarek:
- alignment statistics : samtools stats, mosdepth
- QC : MultiQC
MultiQC : non disponible Nix
*** DONE FastqQC
CLOSED: [2023-08-15 Tue 21:43] SCHEDULED: <2023-08-13 Sun>
*** DONE Mosdepth
CLOSED: [2023-08-15 Tue 21:43] SCHEDULED: <2023-08-13 Sun>
Pour exomple, il faut le fichier de capture
subworkflows/local/bam_markduplicates/
*** DONE Samtools stats
CLOSED: [2023-08-15 Tue 21:43] SCHEDULED: <2023-08-13 Sun>
*** DONE [#B] Compte-redu exécution avec MultiQC
CLOSED: [2023-08-15 Tue 21:43] SCHEDULED: <2023-08-13 Sun>
*** DONE Résultats sur NA12878 : 98% à 20x
CLOSED: [2023-08-19 Sat 20:45] SCHEDULED: <2023-08-17 Thu>
**** DONE Comprendre 91% à 20x seulement: SNVs inséré
CLOSED: [2023-08-18 Fri 22:25]
***** DONE Tester autre kit : Twist exome comprehensive
CLOSED: [2023-08-18 Fri 22:24]
Moins bon
***** DONE Tester génome sans alt
CLOSED: [2023-08-18 Fri 22:25]
Idem
***** DONE Tester NA12878 sans SNVs inséré: cause !!
CLOSED: [2023-08-18 Fri 22:25]
***** DONE Tester hg19 sur NA12878 non inséré
CLOSED: [2023-08-18 Fri 22:25]
**** DONE Comprendre pourquoi SNVs diminuent le score: reads manquants
CLOSED: [2023-08-19 Sat 20:34] SCHEDULED: <2023-08-18 Fri>
Voir [[id:5c1c36f3-f68e-4e6d-a7b6-61dca89abc37][Bug: perte de nombreux reads avec NA12878]]
*** DONE Relancer résultats avec NA1287 et NA12878 + sanger
CLOSED: [2023-08-29 Tue 10:30] SCHEDULED: <2023-08-29 Tue>
*** DONE Comparer avec hg19
CLOSED: [2023-08-28 Mon 17:22] SCHEDULED: <2023-08-20 Sun>
*** DONE Comparer avec autres kit de capture
CLOSED: [2023-08-28 Mon 17:22] SCHEDULED: <2023-08-20 Sun>
*** DONE Comparer avec no-alt
CLOSED: [2023-08-28 Mon 17:22] SCHEDULED: <2023-08-20 Sun>
** HOLD vérifier si normalisation
** KILL [#B] Vérification nomenclature hgvs :hgvs:
CLOSED: [2023-08-16 Wed 19:07] SCHEDULED: <2023-08-15 Tue>
*** KILL mutalyzer
CLOSED: [2023-08-16 Wed 19:07] SCHEDULED: <2023-08-13 Sun>
*** KILL API variantvalidator
CLOSED: [2023-08-16 Wed 19:07] SCHEDULED: <2023-08-13 Sun>
** DONE Exécution
CLOSED: [2022-09-13 Tue 21:37]
*** KILL test Bionix
*** KILL Implémenter execution avec Nix ?
Voir https://academic.oup.com/gigascience/article/9/11/giaa121/5987272?login=false
pour un exemple.
Probablement plus simple d’utiliser Nix pour gestion de l’environnement et snakemake pour l’exécution
Pas d’accès internet depuis le cluster
*** DONE nextflow
CLOSED: [2022-09-13 Tue 21:37]
**** TODO Bug scheduler SGE
Le job se fait tuer car l'utilisateur n'est pas passé correctement à nextflow
***** DONE Forcer l'utilisateur à l'exécution
CLOSED: [2023-04-01 Sat 17:57]
NXF_OPTS=-D"user.name=alex"
***** DONE Vérifier si le problème persiste avec 22.10.6
CLOSED: [2023-04-01 Sat 18:38] SCHEDULED: <2023-04-01 Sat>
oui
***** KILL Packager l'utilisateur dans le programme ?
Mauvaise idée..
*** DONE Diminuer mémoire pour haplotypecaller
CLOSED: [2023-09-20 Wed 21:44] SCHEDULED: <2023-09-19 Tue>
/Entered on/ [2023-09-19 Tue 15:30]
Medium = 32Go pour 6 coeurs => 4 jobs (donc tout le noeud) prend plus que les 96GB...
On essaie 16Gb
Puis commit
*** DONE Report multiqc avec 10 runs
CLOSED: [2023-09-19 Tue 15:31] SCHEDULED: <2023-09-19 Tue>
/Entered on/ [2023-09-19 Tue 15:31]
Cf mail 2023-09-19
*** DONE Bug: variant sur 7788314 pour patient 62982193 filtré : DP < 30
CLOSED: [2023-10-02 Mon 21:58] SCHEDULED: <2023-09-25 Mon>
/Entered on/ [2023-09-22 Fri 22:59]
35 selon IGV mais 27 en pratique dans le VCF.
VCF cento: 26 reads également...
VOUS, non confirmé sanger
Mail envoyé Alexis
Vu avec Paul : on laisse DP >= 30 si c'est la seule occurence
*** DONE Bug mésohelios: les jobs se font killer :bug:
CLOSED: [2023-10-13 Fri 11:44]
/Entered on/ [2023-10-11 Wed 12:06]
**** DONE Comprendre pourquoi
CLOSED: [2023-10-11 Wed 16:06] SCHEDULED: <2023-10-11 Wed>
Utilisateurs déconnectés à 4h du matin tous les jours
**** DONE Démarrer nextflow avec sbatch
CLOSED: [2023-10-13 Fri 11:07] SCHEDULED: <2023-10-11 Wed>
On retrouve le même bug avec squeue qui n'arrive pas à retrouver l'utilisateur en utilisant nextflow+nix
Même en forcant USER et export NXF_OPTS='-D"user.name=apraga"'
Test avec la version packagée sur mésocentre (il faut mettre à la main le dossier...): ok
#+begin_src sh
module load nextflow@23.04.3/gcc-12.1.0
# Force it
nextflow="/Softs/spack/opt/spack/linux-rocky8-x86_64/gcc-12.1.0/nextflow-23.04.3-qputqf2dmtvabpv76miz