B:BD[
3.8453] → [
2.536:8728]
WES 129.94×
HiSeq2500 SRR1611184 SeqCap EZ Human Exome Lib v3.0 WES 111.90×
Kit acessible ?
**** Résumé
Kit disponible en hg38
| HiSeq 4000 | Agilent SureSelect v7 | SRX11061486 | https://github.com/kevinblighe/agilent |
| NovaSeq 6000 | Agilent SureSelect v7 | SRX11061516 | idem |
Kit disponible en hg19
| HiSeq2000 | SeqCap EZ Human Exome Lib v3.0 | SRR1611178 |http://hgdownload.soe.ucsc.edu/gbdb/hg19/exomeProbesets/
| HiSeq2000 | SeqCap EZ Human Exome Lib v3.0 | SRR1611179 |idem
| HiSeq2500 | SeqCap EZ Human Exome Lib v3.0 | SRR1611183 |idem
| HiSeq2500 | SeqCap EZ Human Exome Lib v3.0 | SRR1611184 |idem
https://emea.support.illumina.com/downloads/truseq-exome-product-files.html
*** Liste de capture
Agilent sureselect v7 hg19 et 38 https://github.com/kevinblighe/agilent
**** UCSCS
- [[http://hgdownload.soe.ucsc.edu/gbdb/hg19/exomeProbesets/][hg19]]
- [[http://hgdownload.soe.ucsc.edu/gbdb/hg38/exomeProbesets/][hg38]]
**** github aztrazeneca
https://github.com/AstraZeneca-NGS/reference_data
- IDT xGen Exome Research Panel v1.0
- Agilent SureSelect Human All Exon V6
- Agilent SureSelect Clinical Research Exome
- Nimblegen SeqCap EZ MedExome
- Nmblegen SeqCap EZ Exome v3
**** Trueseq
https://emea.support.illumina.com/downloads/truseq-exome-product-files.html
*** Exemple de validation avec bcbio:
Télécharge données + bed + liftover avec crossmap
https://github.com/bcbio/bcbio_validation_workflows/blob/master/giab-exome/input/get_data.sh
*** TODO Comment télécharger
**** DONE Tester ligne de commande
CLOSED: [2023-11-29 Wed 23:37] SCHEDULED: <2023-11-28 Tue>
***** KILL Tester aws
CLOSED: [2023-11-28 Tue 23:47] SCHEDULED: <2023-11-28 Tue>
Semble télécharger le .sra vu la taille (manque l'extension)
#+begin_src
aws s3 cp s3://sra-pub-run-odp/sra/SRR1611178/SRR1611178 --no-sign-request .
#+end_src
***** KILL Tester sra faster dump
CLOSED: [2023-11-29 Wed 22:20] SCHEDULED: <2023-11-28 Tue>
Selon la doc https://github.com/ncbi/sra-tools/wiki/08.-prefetch-and-fasterq-dump, il faut faire un "pré" - téléchargement
#+begin_src sh
prefetch SRR1611178
fastqer-dump SRR1611178
#+end_src
Note fasterq-dump créé un répertoire temporaire de la taille de prefetch et le supprime. Les fastq ne sont pas compressés
***** DONE Passer par ENA qui donne un lien vers FTP directement
CLOSED: [2023-11-29 Wed 23:37]
**** TODO Nextflow
***** KILL fromSRA
CLOSED: [2023-11-29 Wed 23:15]
Ne renvoie pas le FTP pour SRR1611178/SRR1611178 même avec clé API
**** TODO DataToolkit.jl
SCHEDULED: <2023-11-28 Tue>
- plusieurs datasets par patient appelé NA12878 par exemple mais avec attributs différents (séquencer, kit, pair1, pair2)
- FTP depuis ENA (FTP)
*** Zone de capture GIAB fourni le .bed pour l'exome . INfo : https://support.illumina.com/sequencing/sequencing_kits/nextera-rapid-capture-exome-kit/downloads.html
*** Valider la méthode
- 1000 genomes + SureSelect human all exon v2 target capture kit : non disponible sur le site d'agilent (V6 ou plus)
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2928-9
- GIAB + liftover du fichire de capture en hg38
Ce qui est aussi fait par
https://bcbio-nextgen.readthedocs.io/en/stable/contents/germline_variants.html
Mais avec UCSC liftover
** Centogène
https://www.twistbioscience.com/node/23906
Bed non fourni pour exactement cette capture
On prend https://www.twistbioscience.com/resources/data-files/twist-alliance-vcgs-exome-401mb-bed-files
qui content la majeure partie
* Réunion
** <2023-08-10 Thu> Alexis
Ok pour bloquer le développment d'ici mardi prochain
Dév:
- pipeline jusque VEP en T2T + GRCh38
- ok pour valider spip T2T sur quelques variant => à intégrer au pipeline
- annotation :
- ok pour mobidetails hg38
- +OMIM T2T+ non
- +franklin hg38+ non pour le moment
- métriques (fastq a minima) + rapport multiqc
- optionnel
- reformater la sortie
- on abandonne
- XAMScissors ave indel
- parallélisation haplotype caller
- spliceai à la vollée
- pangolin
Test
- GIAB:
- hg38: ok pour refaire les tests NA12878 avec données cento, sinon ok pour "c'est difficile" sur les 3 fichiers de capture
- T2T: ok pour faire des tests rapides mais probablement pas assez de temps !
- patient de synthèse : variant cento confirém par sanger seuls
Résultats
- ok pour scale up bwa mem et haplotyecaller
Manuscrit
- validation de méthode : laisser tomber la version actuelle et faire comme strasbourg (cf ngs diag) dans la présentatino
- a envoyé le powerponit avec les références des différsences articles
- ok pour robo4 si résultat
- architecture cible = VM : 78 coeurs 54Go RAUM et 1To espace disque
Passage en production : ok pour présentation rapide du code
* Nixpkgs :nix:
** DONE GATK
CLOSED: [2023-05-06 Sat 08:51]
*** DONE [[https://github.com/NixOS/nixpkgs/pull/185819][Binaire]]
CLOSED: [2022-09-10 Sat 23:53] SCHEDULED: <2022-08-10 Wed>
/Entered on/ [2022-08-09 Tue 10:57]
PR submitted
*** KILL Corriger code pour utiliser source
CLOSED: [2022-09-11 Sun 22:05]
*** DONE Corriger PATH pour include java et python
CLOSED: [2022-10-11 Tue 11:46]
https://github.com/NixOS/nixpkgs/pull/191548
Review <2022-10-10 Mon> , corrigé dans la journée
*** DONE Update 4.3.0.0
CLOSED: [2023-04-13 Thu 09:01]
** HOLD Nextflow
*** KILL version script seule
CLOSED: [2023-04-01 Sat 18:29]
Fix pour SGE et nextflow
https://github.com/NixOS/nixpkgs/issues/192396
*** KILL Version avec gradle
CLOSED: [2022-10-09 Sun 22:51]
*** HOLD [[https://github.com/NixOS/nixpkgs/issues/192396][Bug report Version 22.10.6]]
**** Notes
Erreur :
ERROR: Cannot download nextflow required file -- make sure you can connect to the internet
Alternatively you can try to download this file:
https://www.nextflow.io/releases/v22.10.6/nextflow-22.10.6-all.jar
and save it as:
.//nix/store/md2b1ah4d7ivj82k8xxap30dmdci00pa-nextflow-22.10.6/bin/.nextflow-wrapped
Dans la mise à jour, il y a la création d'un environnement virtuel qui casse l'exécution de nextflow (besoin de télécharger)
Fix = désactiver
**** KILL Patch NXF_OFFLINE=true
CLOSED: [2023-07-02 Sun 11:02] SCHEDULED: <2023-06-11 Sun>
** WAIT [[https://github.com/NixOS/nixpkgs/pull/249329][Multiqc]]
HG002,sanger-chr20,data/HG002-sanger-inserted-chr20_1.fq.gz,data/HG002-sanger-inserted-chr20_2.fq.gz
** KILL Mutalyzer
CLOSED: [2023-08-16 Wed 19:07] SCHEDULED: <2023-08-13 Sun>
Packaging faisable mais nombreux paquet python
** TODO Variant validator -> hgvs
C'est juste une interface autour d'hgvs mais il faut
- postgresql
- un accès ou télécharger des bases de données
Dépendences
s: wcwidth, pyee, pure-eval, ptyprocess, pickleshare, parsley, parse, fake-useragent, executing, backcall, appdirs, zipp, websockets, w3lib, urllib3, traitlets, tqdm, tabulate, sqlparse, soupsieve, six, pygments, psycopg2, prompt-toolkit, pexpect, parso, lxml, idna, humanfriendly, decorator, cython, cssselect, configparser, charset-normalizer, certifi, attrs, requests, pysam, pyquery, matplotlib-inline, jedi, importlib-metadata, coloredlogs, beautifulsoup4, asttokens, yoyo-migrations, stack-data, pyppeteer, bs4, bioutils, requests-html, ipython, biocommons.seqrepo, hgvs
** TODO SPIP :spip:
*** DONE PR upstream
CLOSED: [2023-08-12 Sat 18:23] SCHEDULED: <2023-08-12 Sat 18:00>
*** DONE Mail R. Lemann :T2T:
CLOSED: [2023-08-12 Sat 18:23] SCHEDULED: <2023-08-12 Sat 18:00>
*** KILL Mise à jour T2T :T2T:
*** WAIT Corriger PR
SCHEDULED: <2023-12-18 Mon>
** TODO VEP :vep:
*** DONE [[https://github.com/NixOS/nixpkgs/pull/185691][BioPerl]]
SCHEDULED: <2022-08-10 Wed>
/Entered on/ [2022-08-09 Tue 10:57]
PR submitted
*** DONE BioDBBBigFile
CLOSED: [2023-11-30 Thu 21:52]
:PROPERTIES:
:ORDERED: t
:END:
/Entered on/ [2022-08-10 Wed 14:28]
On utilise la dernière version de kent, donc plus de problème.
PRête à être mergé. Rebase faite<2023-07-02 Sun>
**** DONE Version de kent déjà packagée : forcer version 335
CLOSED: [2023-07-02 Sun 11:20]
***** KILL [[h
WES 129.94×
HiSeq2500 SRR1611184 SeqCap EZ Human Exome Lib v3.0 WES 111.90×
Kit acessible ?
**** Résumé
Kit disponible en hg38
| HiSeq 4000 | Agilent SureSelect v7 | SRX11061486 | https://github.com/kevinblighe/agilent |
| NovaSeq 6000 | Agilent SureSelect v7 | SRX11061516 | idem |
Kit disponible en hg19
| HiSeq2000 | SeqCap EZ Human Exome Lib v3.0 | SRR1611178 |http://hgdownload.soe.ucsc.edu/gbdb/hg19/exomeProbesets/
| HiSeq2000 | SeqCap EZ Human Exome Lib v3.0 | SRR1611179 |idem
| HiSeq2500 | SeqCap EZ Human Exome Lib v3.0 | SRR1611183 |idem
| HiSeq2500 | SeqCap EZ Human Exome Lib v3.0 | SRR1611184 |idem
https://emea.support.illumina.com/downloads/truseq-exome-product-files.html
*** Liste de capture
Agilent sureselect v7 hg19 et 38 https://github.com/kevinblighe/agilent
**** UCSCS
- [[http://hgdownload.soe.ucsc.edu/gbdb/hg19/exomeProbesets/][hg19]]
- [[http://hgdownload.soe.ucsc.edu/gbdb/hg38/exomeProbesets/][hg38]]
**** github aztrazeneca
https://github.com/AstraZeneca-NGS/reference_data
- IDT xGen Exome Research Panel v1.0
- Agilent SureSelect Human All Exon V6
- Agilent SureSelect Clinical Research Exome
- Nimblegen SeqCap EZ MedExome
- Nmblegen SeqCap EZ Exome v3
**** Trueseq
https://emea.support.illumina.com/downloads/truseq-exome-product-files.html
*** Exemple de validation avec bcbio:
Télécharge données + bed + liftover avec crossmap
https://github.com/bcbio/bcbio_validation_workflows/blob/master/giab-exome/input/get_data.sh
*** TODO Comment télécharger
**** DONE Tester ligne de commande
CLOSED: [2023-11-29 Wed 23:37] SCHEDULED: <2023-11-28 Tue>
***** KILL Tester aws
CLOSED: [2023-11-28 Tue 23:47] SCHEDULED: <2023-11-28 Tue>
Semble télécharger le .sra vu la taille (manque l'extension)
#+begin_src
aws s3 cp s3://sra-pub-run-odp/sra/SRR1611178/SRR1611178 --no-sign-request .
#+end_src
***** KILL Tester sra faster dump
CLOSED: [2023-11-29 Wed 22:20] SCHEDULED: <2023-11-28 Tue>
Selon la doc https://github.com/ncbi/sra-tools/wiki/08.-prefetch-and-fasterq-dump, il faut faire un "pré" - téléchargement
#+begin_src sh
prefetch SRR1611178
fastqer-dump SRR1611178
#+end_src
Note fasterq-dump créé un répertoire temporaire de la taille de prefetch et le supprime. Les fastq ne sont pas compressés
***** DONE Passer par ENA qui donne un lien vers FTP directement
CLOSED: [2023-11-29 Wed 23:37]
**** KILL Nextflow
CLOSED: [2023-12-04 Mon 23:46]
***** KILL fromSRA
CLOSED: [2023-11-29 Wed 23:15]
Ne renvoie pas le FTP pour SRR1611178/SRR1611178 même avec clé API
**** TODO DataToolkit.jl
SCHEDULED: <2023-11-28 Tue>
- plusieurs datasets par patient appelé NA12878 par exemple mais avec attributs différents (séquencer, kit, pair1, pair2)
- FTP depuis ENA (FTP)
- "meta"-dataset for the 2 fastq. Ex:
#+begin_src toml
[[data1]]
uuid = "4ac8e6a5-9430-4745-8027-551fa620c2a8"
description = "1"
[[data1.storage]]
driver = "filesystem"
checksum = "crc32c:96646914"
path = "1.txt"
[[data1.loader]]
driver = "io->file"
path = "lol.txt"
[[sequence]]
uuid = "adbaa0af-71fc-43f1-aa5d-408e9c2dc5be"
[[sequence.storage]]
driver = "raw"
value = { forward = "📇DATASET<<data1::DataToolkitBase.FilePath>>"}
[[sequence.loader]]
driver = "passthrough"
#+end_src
*** Zone de capture GIAB fourni le .bed pour l'exome . INfo : https://support.illumina.com/sequencing/sequencing_kits/nextera-rapid-capture-exome-kit/downloads.html
*** Valider la méthode
- 1000 genomes + SureSelect human all exon v2 target capture kit : non disponible sur le site d'agilent (V6 ou plus)
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2928-9
- GIAB + liftover du fichire de capture en hg38
Ce qui est aussi fait par
https://bcbio-nextgen.readthedocs.io/en/stable/contents/germline_variants.html
Mais avec UCSC liftover
** Centogène
https://www.twistbioscience.com/node/23906
Bed non fourni pour exactement cette capture
On prend https://www.twistbioscience.com/resources/data-files/twist-alliance-vcgs-exome-401mb-bed-files
qui content la majeure partie
* Réunion
** <2023-08-10 Thu> Alexis
Ok pour bloquer le développment d'ici mardi prochain
Dév:
- pipeline jusque VEP en T2T + GRCh38
- ok pour valider spip T2T sur quelques variant => à intégrer au pipeline
- annotation :
- ok pour mobidetails hg38
- +OMIM T2T+ non
- +franklin hg38+ non pour le moment
- métriques (fastq a minima) + rapport multiqc
- optionnel
- reformater la sortie
- on abandonne
- XAMScissors ave indel
- parallélisation haplotype caller
- spliceai à la vollée
- pangolin
Test
- GIAB:
- hg38: ok pour refaire les tests NA12878 avec données cento, sinon ok pour "c'est difficile" sur les 3 fichiers de capture
- T2T: ok pour faire des tests rapides mais probablement pas assez de temps !
- patient de synthèse : variant cento confirém par sanger seuls
Résultats
- ok pour scale up bwa mem et haplotyecaller
Manuscrit
- validation de méthode : laisser tomber la version actuelle et faire comme strasbourg (cf ngs diag) dans la présentatino
- a envoyé le powerponit avec les références des différsences articles
- ok pour robo4 si résultat
- architecture cible = VM : 78 coeurs 54Go RAUM et 1To espace disque
Passage en production : ok pour présentation rapide du code
* Nixpkgs :nix:
** DONE GATK
CLOSED: [2023-05-06 Sat 08:51]
*** DONE [[https://github.com/NixOS/nixpkgs/pull/185819][Binaire]]
CLOSED: [2022-09-10 Sat 23:53] SCHEDULED: <2022-08-10 Wed>
/Entered on/ [2022-08-09 Tue 10:57]
PR submitted
*** KILL Corriger code pour utiliser source
CLOSED: [2022-09-11 Sun 22:05]
*** DONE Corriger PATH pour include java et python
CLOSED: [2022-10-11 Tue 11:46]
https://github.com/NixOS/nixpkgs/pull/191548
Review <2022-10-10 Mon> , corrigé dans la journée
*** DONE Update 4.3.0.0
CLOSED: [2023-04-13 Thu 09:01]
** HOLD Nextflow
*** KILL version script seule
CLOSED: [2023-04-01 Sat 18:29]
Fix pour SGE et nextflow
https://github.com/NixOS/nixpkgs/issues/192396
*** KILL Version avec gradle
CLOSED: [2022-10-09 Sun 22:51]
*** HOLD [[https://github.com/NixOS/nixpkgs/issues/192396][Bug report Version 22.10.6]]
**** Notes
Erreur :
ERROR: Cannot download nextflow required file -- make sure you can connect to the internet
Alternatively you can try to download this file:
https://www.nextflow.io/releases/v22.10.6/nextflow-22.10.6-all.jar
and save it as:
.//nix/store/md2b1ah4d7ivj82k8xxap30dmdci00pa-nextflow-22.10.6/bin/.nextflow-wrapped
Dans la mise à jour, il y a la création d'un environnement virtuel qui casse l'exécution de nextflow (besoin de télécharger)
Fix = désactiver
**** KILL Patch NXF_OFFLINE=true
CLOSED: [2023-07-02 Sun 11:02] SCHEDULED: <2023-06-11 Sun>
** WAIT [[https://github.com/NixOS/nixpkgs/pull/249329][Multiqc]]
HG002,sanger-chr20,data/HG002-sanger-inserted-chr20_1.fq.gz,data/HG002-sanger-inserted-chr20_2.fq.gz
** KILL Mutalyzer
CLOSED: [2023-08-16 Wed 19:07] SCHEDULED: <2023-08-13 Sun>
Packaging faisable mais nombreux paquet python
** TODO Variant validator -> hgvs
C'est juste une interface autour d'hgvs mais il faut
- postgresql
- un accès ou télécharger des bases de données
Dépendences
s: wcwidth, pyee, pure-eval, ptyprocess, pickleshare, parsley, parse, fake-useragent, executing, backcall, appdirs, zipp, websockets, w3lib, urllib3, traitlets, tqdm, tabulate, sqlparse, soupsieve, six, pygments, psycopg2, prompt-toolkit, pexpect, parso, lxml, idna, humanfriendly, decorator, cython, cssselect, configparser, charset-normalizer, certifi, attrs, requests, pysam, pyquery, matplotlib-inline, jedi, importlib-metadata, coloredlogs, beautifulsoup4, asttokens, yoyo-migrations, stack-data, pyppeteer, bs4, bioutils, requests-html, ipython, biocommons.seqrepo, hgvs
** TODO SPIP :spip:
*** DONE PR upstream
CLOSED: [2023-08-12 Sat 18:23] SCHEDULED: <2023-08-12 Sat 18:00>
*** DONE Mail R. Lemann :T2T:
CLOSED: [2023-08-12 Sat 18:23] SCHEDULED: <2023-08-12 Sat 18:00>
*** KILL Mise à jour T2T :T2T:
*** WAIT Corriger PR
SCHEDULED: <2023-12-18 Mon>
** TODO VEP :vep:
*** DONE [[https://github.com/NixOS/nixpkgs/pull/185691][BioPerl]]
SCHEDULED: <2022-08-10 Wed>
/Entered on/ [2022-08-09 Tue 10:57]
PR submitted
*** DONE BioDBBBigFile
CLOSED: [2023-11-30 Thu 21:52]
:PROPERTIES:
:ORDERED: t
:END:
/Entered on/ [2022-08-10 Wed 14:28]
On utilise la dernière version de kent, donc plus de problème.
PRête à être mergé. Rebase faite<2023-07-02 Sun>
**** DONE Version de kent déjà packagée : forcer version 335
CLOSED: [2023-07-02 Sun 11:20]
***** KILL [[h