B:BD[
7.35] → [
8.261:8453]
B:BD[
8.8453] → [
2.27:8219]
#+title: Bisonex
#+category: bisonex
* Idées
** Validation analytique
mail Yannis : données patients +/- simulées
*** Utiliser données GCAT et uploader le notre ?
https://www.nature.com/articles/ncomms7275
*** [#A] Variant calling : Genome in a bottle : NA12878 + autres
Résumé : https://www.nist.gov/programs-projects/genome-bottle
Manuscript : https://www.nature.com/articles/s41587-019-0054-x.epdf?author_access_token=E_1bL0MtBBwZr91xEsy6B9RgN0jAjWel9jnR3ZoTv0OLNnFBR7rUIZNDXq0DIKdg3w6KhBF8Rz2RWQFFc0St45kC6CZs3cDYc87HNHovbWSOubJHDa9CeJV-pN0BW_mQ0n7cM13KF2JRr_wAAn524w%3D%3D
Article comparant les variant calling : https://www.biorxiv.org/content/10.1101/2020.12.11.422022v1.full.pdf
**** Tester le séquencage aussi
Depuis un fastq correspondant à Illumina https://github.com/genome-in-a-bottle/giab_data_indexes
puis on compare le VCF avec les "high confidence"
On séquence directement NA12878 -> inutile pour le pipeline seul
**** Tester seul la partie bioinformatique
Tout résumé ici : https://www.nist.gov/programs-projects/genome-bottle
- methode https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/NA12878/analysis/Illumina_PlatinumGenomes_NA12877_NA12878_09162015/IlluminaPlatinumGenomes-user-guide.pdf
- vcf
https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/release/NA12878_HG001/latest/GRCh38/
NB: à quoi correspond https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/NA12878/analysis/Illumina_PlatinumGenomes_NA12877_NA12878_09162015/hg38/2.0.1/NA12878/ ??
Article comparant les variant calling : https://www.biorxiv.org/content/10.1101/2020.12.11.422022v1.full.pdf
Article pour vcfeval : https://www.nature.com/articles/s41587-019-0054-x
La version 4 ajoute 273 gènes "clinically relevant" https://www.biorxiv.org/content/10.1101/2021.06.07.444885v3.full.pdf
Ajout des zones "difficiles"
https://www.biorxiv.org/content/10.1101/2020.07.24.212712v5.full.pdf
*** [#B] Pipeline : générer patient avec tous les variants retrouvés à Cento
Comparaison de génération ADN (2019)
https://academic.oup.com/bfg/article/19/1/49/5680294
**** SimuSCop (exome)
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-020-03665-5
https://github.com/qasimyu/simuscop
1. Crééer un modèle depuis bam + vcf : Setoprofile
2. Génerer données NGS
** Annotation :
*** Comparaison vep / snpeff et annovar
* Changement nouvelle version
- Dernière version du génome (la version "prête à l'emploi" est seulement GRCh38 sans les version patchées)
* Notes
** Nextflow
*** afficher les résultats d'un process/workflow
#+begin_src
lol.out.view()
#+end_src
Attention, ne fonctionne pas si plusieurs sortie:
#+begin_src
lol.out[0].view()
#+end_src
ou si /a/ est le nom de la sortie
#+begin_src
lol.out.a.view()
#+end_src
** Quelle version du génome ?
- T2T: notation chromose = chR1,2 : ok genome, clinvar, dbSNP
- GRCh38: notation chromose = NC_... : ok genome, clinvar, dbSNP
** Performances
Ordinateur de Carine (WSL2) : 4h dont 1h15 alignement (parallélisé) et 1h15 haplotypecaller (séquentiel)
** Chromosomes NC, NT, NW
Correspondance :
https://genome.ucsc.edu/cgi-bin/hgTracks?db=hg38&chromInfoPage=
Signification
https://genome.ucsc.edu/FAQ/FAQdownloads.html#downloadAlt
- alt = séquences alternatives (utilisables)
- fix = patch (correction ou amélioration)
- random = séquence connue sur un chromosome mais non encore utilisée
** Pipelines prêt-à-l’emploi nextflow
Problème : nécessite singularity ou docker (ou conda)
Potentiellement utilisable avec nix...
** Validation : Quelles données de référence ?
Discussion avec Alexis
*** KILL Platinum genomes = génome seul
CLOSED: [2023-11-26 Sun 23:29]
]] Que du génome « sequenced to 50x depth on a HiSeq 2000 system”
*** [[https://github.com/genome-in-a-bottle/giab_data_indexes][Genome in a bottle]]
**** Illumina
- NA12878 :
- Illumina HiSeq Exome : fastq + capture en hg37
- Illumina TruSeq Exome : bam, pas de capture
- VCF en hg37 https://zenodo.org/record/3597727 mais avec capture. Raw data ne semblent pas être accessibles...
- HiSeq2000
- NextSeq 500
- HiSeq 2500
- HG002,3,4
- Illumina Whole Exome : bam. le kit de capture est "Agilent SureSelect Human All Exon V5 kit" selon [[https://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/analysis/OsloUniversityHospital_Exome_GATK_jointVC_11242015/README.txt][README]]. On il faut les régions [[https://kb.10xgenomics.com/hc/en-us/articles/115004150923-Where-can-I-find-the-Agilent-Target-BED-files-][selon ce site]]
Un autre fichier est disponible (capture ???)
https://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/analysis/OsloUniversityHospital_Exome_GATK_jointVC_11242015/wex_Agilent_SureSelect_v05_b37.baits.slop50.merged.list
"target region" +/- 50bp
testé sur chr311780-312086 : ok
**** KILL Autres technologies : non adaptées au pipeline (vu avec Alexis)
CLOSED: [2023-11-26 Sun 23:29]
*** KILL 1000 genomes: trop compliqué pour capture
CLOSED: [2023-11-26 Sun 23:52]
- [[https://www.internationalgenome.org/data-portal/sample/NA12878][NA12878]]
- Quelle capture ? Réponse ici https://www.internationalgenome.org/category/targets/
- ceux marqués "exons targetted" ont ce [[http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/pilot_data/technical/reference/][BED]] pour 1000 gènes
- ceux marqués exomes ont tout le CCDS (en hg19...)
- [[http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/exome_pull_down_targets/][BED pour phase 3]]
- [[http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/exome_pull_down_targets_phases1_and_2/][BED pour phase 1 ou 2]]
- Librairie selon les centres : https://www.internationalgenome.org/category/exome/
#+begin_quote
- Baylor College of Medicine : NimbleGen SeqCap_EZ_Exome_v2 for its Solid based exome sequencing. For its more recent Illumina based exome sequencing it used a custom array HSGC VCRome.
- The Broad Institute has used Agilent SureSelect_All_Exon_V2 (https://earray.chem.agilent.com/earray/ using ELID: S0293689).
- The BGI used NimbleGen SeqCap EZ exome V1 for the phase 1 samples and NimbleGen SeqCap_EZ_Exome_v2 for phase 2 and 3 (the v1 files were obtained from BGI directly; they are discontinued from Nimblegen).
- The Washington University Genome Center used Agilent SureSelect_All_Exon_V2 (https://earray.chem.agilent.com/earray/ using ELID: S0293689) for phase 1 and phase 2, and NimbleGen SeqCap_EZ_Exome v3 for phase 3
#+end_quote
- Un BED a été créé avec l' [[ http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/exome_pull_down_targets_phases1_and_2/README.20120518.exome.consensus][intersection des capture et CCDS]] Mais en GRCh37...
- intersection des capture + CCDS [[id:b77e64fa-06a8-4ffa-8b5b-ab3fda684b61][Données brutes exome 1000 Genomes (fastq + capture)]]
*** TODO NA12878
**** DONE En cherchant dans SRA directement
CLOSED: [2023-11-29 Wed 23:37] SCHEDULED: <2023-11-28 Tue>
https://www.ncbi.nlm.nih.gov/sra avec NA12878 et en filtrant par exome
- NovaSeq 6000 TruSeq capture SRX11061536
- NovaSeq 6000 IDT capture SRX11061526
- NovaSeq 6000 Agilent SureSelect v7 capture SRX11061516
- HiSeq 4000 TruSeq capture SRX11061506
- HiSeq 4000 IDT capture SRX11061496
- HiSeq 4000 Agilent SureSelect v7 capture SRX11061486
Note: SRX = expérience, SRR = run
Note trueseq non disponible ?
hg19 : https://www.biostars.org/p/144554/
IDT: lequel
https://www.idtdna.com/pages/products/next-generation-sequencing/workflow/xgen-ngs-hybridization-capture/pre-designed-hyb-cap-panels/exome-hyb-panel-v2
**** DONE Run avec [cite:@hwang2015]
CLOSED: [2023-11-29 Wed 23:37] SCHEDULED: <2023-11-28 Tue>
HiSeq2000 SRR515199 SureSelect v4 WES 298.45×
HiSeq2000 SRR098401 SureSelect v2 WES 116.84×
HiSeq2000 SRR1611178 SeqCap EZ Human Exome Lib v3.0 WES 79.93×
HiSeq2000 SRR1611179 SeqCap EZ Human Exome Lib v3.0 WES 79.84×
HiSeq2000 SRR292250 SeqCap EZ Exome SeqCap v2 WES 116.06×
HiSeq2500 SRR1611183 SeqCap EZ Human Exome Lib v3.0
WES 129.94×
HiSeq2500 SRR1611184 SeqCap EZ Human Exome Lib v3.0 WES 111.90×
Kit acessible ?
**** Résumé
Kit disponible en hg38
| HiSeq 4000 | Agilent SureSelect v7 | SRX11061486 | https://github.com/kevinblighe/agilent |
| NovaSeq 6000 | Agilent SureSelect v7 | SRX11061516 | idem |
Kit disponible en hg19
| HiSeq2000 | SeqCap EZ Human Exome Lib v3.0 | SRR1611178 |http://hgdownload.soe.ucsc.edu/gbdb/hg19/exomeProbesets/
| HiSeq2000 | SeqCap EZ Human Exome Lib v3.0 | SRR1611179 |idem
| HiSeq2500 | SeqCap EZ Human Exome Lib v3.0 | SRR1611183 |idem
| HiSeq2500 | SeqCap EZ Human Exome Lib v3.0 | SRR1611184 |idem
https://emea.support.illumina.com/downloads/truseq-exome-product-files.html
*** Liste de capture
Agilent sureselect v7 hg19 et 38 https://github.com/kevinblighe/agilent
**** UCSCS
- [[http://hgdownload.soe.ucsc.edu/gbdb/hg19/exomeProbesets/][hg19]]
- [[http://hgdownload.soe.ucsc.edu/gbdb/hg38/exomeProbesets/][hg38]]
**** github aztrazeneca
https://github.com/AstraZeneca-NGS/reference_data
- IDT xGen Exome Research Panel v1.0
- Agilent SureSelect Human All Exon V6
- Agilent SureSelect Clinical Research Exome
- Nimblegen SeqCap EZ MedExome
- Nmblegen SeqCap EZ Exome v3
**** Trueseq
https://emea.support.illumina.com/downloads/truseq-exome-product-files.html
*** Exemple de validation avec bcbio:
Télécharge données + bed + liftover avec crossmap
https://github.com/bcbio/bcbio_validation_workflows/blob/master/giab-exome/input/get_data.sh
*** TODO Comment télécharger
**** DONE Tester ligne de commande
CLOSED: [2023-11-29 Wed 23:37] SCHEDULED: <2023-11-28 Tue>
***** KILL Tester aws
CLOSED: [2023-11-28 Tue 23:47] SCHEDULED: <2023-11-28 Tue>
Semble télécharger le .sra vu la taille (manque l'extension)
#+begin_src
aws s3 cp s3://sra-pub-run-odp/sra/SRR1611178/SRR1611178 --no-sign-request .
#+end_src
***** KILL Tester sra faster dump
CLOSED: [2023-11-29 Wed 22:20] SCHEDULED: <2023-11-28 Tue>
Selon la doc https://github.com/ncbi/sra-tools/wiki/08.-prefetch-and-fasterq-dump, il faut faire un "pré" - téléchargement
#+begin_src sh
prefetch SRR1611178
fastqer-dump SRR1611178
#+end_src
Note fasterq-dump créé un répertoire temporaire de la taille de prefetch et le supprime. Les fastq ne sont pas compressés
***** DONE Passer par ENA qui donne un lien vers FTP directement
CLOSED: [2023-11-29 Wed 23:37]
**** KILL Nextflow
CLOSED: [2023-12-04 Mon 23:46]
***** KILL fromSRA
CLOSED: [2023-11-29 Wed 23:15]
Ne renvoie pas le FTP pour SRR1611178/SRR1611178 même avec clé API
**** TODO DataToolkit.jl
SCHEDULED: <2023-11-28 Tue>
- plusieurs datasets par patient appelé NA12878 par exemple mais avec attributs différents (séquencer, kit, pair1, pair2)
- FTP depuis ENA (FTP)
- "meta"-dataset for the 2 fastq. Ex:
#+begin_src toml
[[data1]]
uuid = "4ac8e6a5-9430-4745-8027-551fa620c2a8"
description = "1"
[[data1.storage]]
driver = "filesystem"
checksum = "crc32c:96646914"
path = "1.txt"
[[data1.loader]]
driver = "io->file"
path = "lol.txt"
[[sequence]]
uuid = "adbaa0af-71fc-43f1-aa5d-408e9c2dc5be"
[[sequence.storage]]
driver = "raw"
value = { forward = "📇DATASET<<data1::DataToolkitBase.FilePath>>"}
[[sequence.loader]]
driver = "passthrough"
#+end_src
*** Zone de capture GIAB fourni le .bed pour l'exome . INfo : https://support.illumina.com/sequencing/sequencing_kits/nextera-rapid-capture-exome-kit/downloads.html
*** Valider la méthode
- 1000 genomes + SureSelect human all exon v2 target capture kit : non disponible sur le site d'agilent (V6 ou plus)
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2928-9
- GIAB + liftover du fichire de capture en hg38
Ce qui est aussi fait par
https://bcbio-nextgen.readthedocs.io/en/stable/contents/germline_variants.html
Mais avec UCSC liftover
** Centogène
https://www.twistbioscience.com/node/23906
Bed non fourni pour exactement cette capture
On prend https://www.twistbioscience.com/resources/data-files/twist-alliance-vcgs-exome-401mb-bed-files
qui content la majeure partie
* Réunion
** <2023-08-10 Thu> Alexis
Ok pour bloquer le développment d'ici mardi prochain
Dév:
- pipeline jusque VEP en T2T + GRCh38
- ok pour valider spip T2T sur quelques variant => à intégrer au pipeline
- annotation :
- ok pour mobidetails hg38
- +OMIM T2T+ non
- +franklin hg38+ non pour le moment
- métriques (fastq a minima) + rapport multiqc
- optionnel
- reformater la sortie
- on abandonne
- XAMScissors ave indel
- parallélisation haplotype caller
- spliceai à la vollée
- pangolin
Test
- GIAB:
- hg38: ok pour refaire les tests NA12878 avec données cento, sinon ok pour "c'est difficile" sur les 3 fichiers de capture
- T2T: ok pour faire des tests rapides mais probablement pas assez de temps !
- patient de synthèse : variant cento confirém par sanger seuls
Résultats
- ok pour scale up bwa mem et haplotyecaller
Manuscrit
- validation de méthode : laisser tomber la version actuelle et faire comme strasbourg (cf ngs diag) dans la présentatino
- a envoyé le powerponit avec les références des différsences articles
- ok pour robo4 si résultat
- architecture cible = VM : 78 coeurs 54Go RAUM et 1To espace disque
Passage en production : ok pour présentation rapide du code
* Nixpkgs :nix:
** DONE GATK
CLOSED: [2023-05-06 Sat 08:51]
*** DONE [[https://github.com/NixOS/nixpkgs/pull/185819][Binaire]]
CLOSED: [2022-09-10 Sat 23:53] SCHEDULED: <2022-08-10 Wed>
/Entered on/ [2022-08-09 Tue 10:57]
PR submitted
*** KILL Corriger code pour utiliser source
CLOSED: [2022-09-11 Sun 22:05]
*** DONE Corriger PATH pour include java et python
CLOSED: [2022-10-11 Tue 11:46]
https://github.com/NixOS/nixpkgs/pull/191548
Review <2022-10-10 Mon> , corrigé dans la journée
*** DONE Update 4.3.0.0
CLOSED: [2023-04-13 Thu 09:01]
** HOLD Nextflow
*** KILL version script seule
CLOSED: [2023-04-01 Sat 18:29]
Fix pour SGE et nextflow
https://github.com/NixOS/nixpkgs/issues/192396
*** KILL Version avec gradle
CLOSED: [2022-10-09 Sun 22:51]
*** HOLD [[https://github.com/NixOS/nixpkgs/issues/192396][Bug report Version 22.10.6]]
**** Notes
Erreur :
ERROR: Cannot download nextflow required file -- make sure you can connect to the internet
Alternatively you can try to download this file:
https://www.nextflow.io/releases/v22.10.6/nextflow-22.10.6-all.jar
and save it as:
.//nix/store/md2b1ah4d7ivj82k8xxap30dmdci00pa-nextflow-22.10.6/bin/.nextflow-wrapped
Dans la mise à jour, il y a la création d'un environnement virtuel qui casse l'exécution de nextflow (besoin de télécharger)
Fix = désactiver
**** KILL Patch NXF_OFFLINE=true
CLOSED: [2023-07-02 Sun 11:02] SCHEDULED: <2023-06-11 Sun>
** WAIT [[https://github.com/NixOS/nixpkgs/pull/249329][Multiqc]]
HG002,sanger-chr20,data/HG002-sanger-inserted-chr20_1.fq.gz,data/HG002-sanger-inserted-chr20_2.fq.gz
** KILL Mutalyzer
CLOSED: [2023-08-16 Wed 19:07] SCHEDULED: <2023-08-13 Sun>
Packaging faisable mais nombreux paquet python
** TODO Variant validator -> hgvs
C'est juste une interface autour d'hgvs mais il faut
- postgresql
- un accès ou télécharger des bases de données
Dépendences
s: wcwidth, pyee, pure-eval, ptyprocess, pickleshare, parsley, parse, fake-useragent, executing, backcall, appdirs, zipp, websockets, w3lib, urllib3, traitlets, tqdm, tabulate, sqlparse, soupsieve, six, pygments, psycopg2, prompt-toolkit, pexpect, parso, lxml, idna, humanfriendly, decorator, cython, cssselect, configparser, charset-normalizer, certifi, attrs, requests, pysam, pyquery, matplotlib-inline, jedi, importlib-metadata, coloredlogs, beautifulsoup4, asttokens, yoyo-migrations, stack-data, pyppeteer, bs4, bioutils, requests-html, ipython, biocommons.seqrepo, hgvs
** TODO SPIP :spip:
*** DONE PR upstream
CLOSED: [2023-08-12 Sat 18:23] SCHEDULED: <2023-08-12 Sat 18:00>
*** DONE Mail R. Lemann :T2T:
CLOSED: [2023-08-12 Sat 18:23] SCHEDULED: <2023-08-12 Sat 18:00>
*** KILL
#+title: Bisonex
#+category: bisonex
* Idées
** Validation analytique
mail Yannis : données patients +/- simulées
*** Utiliser données GCAT et uploader le notre ?
https://www.nature.com/articles/ncomms7275
*** [#A] Variant calling : Genome in a bottle : NA12878 + autres
Résumé : https://www.nist.gov/programs-projects/genome-bottle
Manuscript : https://www.nature.com/articles/s41587-019-0054-x.epdf?author_access_token=E_1bL0MtBBwZr91xEsy6B9RgN0jAjWel9jnR3ZoTv0OLNnFBR7rUIZNDXq0DIKdg3w6KhBF8Rz2RWQFFc0St45kC6CZs3cDYc87HNHovbWSOubJHDa9CeJV-pN0BW_mQ0n7cM13KF2JRr_wAAn524w%3D%3D
Article comparant les variant calling : https://www.biorxiv.org/content/10.1101/2020.12.11.422022v1.full.pdf
**** Tester le séquencage aussi
Depuis un fastq correspondant à Illumina https://github.com/genome-in-a-bottle/giab_data_indexes
puis on compare le VCF avec les "high confidence"
On séquence directement NA12878 -> inutile pour le pipeline seul
**** Tester seul la partie bioinformatique
Tout résumé ici : https://www.nist.gov/programs-projects/genome-bottle
- methode https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/NA12878/analysis/Illumina_PlatinumGenomes_NA12877_NA12878_09162015/IlluminaPlatinumGenomes-user-guide.pdf
- vcf
https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/release/NA12878_HG001/latest/GRCh38/
NB: à quoi correspond https://ftp-trace.ncbi.nlm.nih.gov/ReferenceSamples/giab/data/NA12878/analysis/Illumina_PlatinumGenomes_NA12877_NA12878_09162015/hg38/2.0.1/NA12878/ ??
Article comparant les variant calling : https://www.biorxiv.org/content/10.1101/2020.12.11.422022v1.full.pdf
Article pour vcfeval : https://www.nature.com/articles/s41587-019-0054-x
La version 4 ajoute 273 gènes "clinically relevant" https://www.biorxiv.org/content/10.1101/2021.06.07.444885v3.full.pdf
Ajout des zones "difficiles"
https://www.biorxiv.org/content/10.1101/2020.07.24.212712v5.full.pdf
*** [#B] Pipeline : générer patient avec tous les variants retrouvés à Cento
Comparaison de génération ADN (2019)
https://academic.oup.com/bfg/article/19/1/49/5680294
**** SimuSCop (exome)
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-020-03665-5
https://github.com/qasimyu/simuscop
1. Crééer un modèle depuis bam + vcf : Setoprofile
2. Génerer données NGS
** Annotation :
*** Comparaison vep / snpeff et annovar
* Changement nouvelle version
- Dernière version du génome (la version "prête à l'emploi" est seulement GRCh38 sans les version patchées)
* Notes
** Nextflow
*** afficher les résultats d'un process/workflow
#+begin_src
lol.out.view()
#+end_src
Attention, ne fonctionne pas si plusieurs sortie:
#+begin_src
lol.out[0].view()
#+end_src
ou si /a/ est le nom de la sortie
#+begin_src
lol.out.a.view()
#+end_src
** Quelle version du génome ?
- T2T: notation chromose = chR1,2 : ok genome, clinvar, dbSNP
- GRCh38: notation chromose = NC_... : ok genome, clinvar, dbSNP
** Performances
Ordinateur de Carine (WSL2) : 4h dont 1h15 alignement (parallélisé) et 1h15 haplotypecaller (séquentiel)
** Chromosomes NC, NT, NW
Correspondance :
https://genome.ucsc.edu/cgi-bin/hgTracks?db=hg38&chromInfoPage=
Signification
https://genome.ucsc.edu/FAQ/FAQdownloads.html#downloadAlt
- alt = séquences alternatives (utilisables)
- fix = patch (correction ou amélioration)
- random = séquence connue sur un chromosome mais non encore utilisée
** Pipelines prêt-à-l’emploi nextflow
Problème : nécessite singularity ou docker (ou conda)
Potentiellement utilisable avec nix...
** Validation : Quelles données de référence ?
Discussion avec Alexis
*** KILL Platinum genomes = génome seul
CLOSED: [2023-11-26 Sun 23:29]
]] Que du génome « sequenced to 50x depth on a HiSeq 2000 system”
*** [[https://github.com/genome-in-a-bottle/giab_data_indexes][Genome in a bottle]]
**** Illumina
- NA12878 :
- Illumina HiSeq Exome : fastq + capture en hg37
- Illumina TruSeq Exome : bam, pas de capture
- VCF en hg37 https://zenodo.org/record/3597727 mais avec capture. Raw data ne semblent pas être accessibles...
- HiSeq2000
- NextSeq 500
- HiSeq 2500
- HG002,3,4
- Illumina Whole Exome : bam. le kit de capture est "Agilent SureSelect Human All Exon V5 kit" selon [[https://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/analysis/OsloUniversityHospital_Exome_GATK_jointVC_11242015/README.txt][README]]. On il faut les régions [[https://kb.10xgenomics.com/hc/en-us/articles/115004150923-Where-can-I-find-the-Agilent-Target-BED-files-][selon ce site]]
Un autre fichier est disponible (capture ???)
https://ftp-trace.ncbi.nlm.nih.gov/giab/ftp/data/AshkenazimTrio/analysis/OsloUniversityHospital_Exome_GATK_jointVC_11242015/wex_Agilent_SureSelect_v05_b37.baits.slop50.merged.list
"target region" +/- 50bp
testé sur chr311780-312086 : ok
**** KILL Autres technologies : non adaptées au pipeline (vu avec Alexis)
CLOSED: [2023-11-26 Sun 23:29]
*** KILL 1000 genomes: trop compliqué pour capture
CLOSED: [2023-11-26 Sun 23:52]
- [[https://www.internationalgenome.org/data-portal/sample/NA12878][NA12878]]
- Quelle capture ? Réponse ici https://www.internationalgenome.org/category/targets/
- ceux marqués "exons targetted" ont ce [[http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/pilot_data/technical/reference/][BED]] pour 1000 gènes
- ceux marqués exomes ont tout le CCDS (en hg19...)
- [[http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/exome_pull_down_targets/][BED pour phase 3]]
- [[http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/exome_pull_down_targets_phases1_and_2/][BED pour phase 1 ou 2]]
- Librairie selon les centres : https://www.internationalgenome.org/category/exome/
#+begin_quote
- Baylor College of Medicine : NimbleGen SeqCap_EZ_Exome_v2 for its Solid based exome sequencing. For its more recent Illumina based exome sequencing it used a custom array HSGC VCRome.
- The Broad Institute has used Agilent SureSelect_All_Exon_V2 (https://earray.chem.agilent.com/earray/ using ELID: S0293689).
- The BGI used NimbleGen SeqCap EZ exome V1 for the phase 1 samples and NimbleGen SeqCap_EZ_Exome_v2 for phase 2 and 3 (the v1 files were obtained from BGI directly; they are discontinued from Nimblegen).
- The Washington University Genome Center used Agilent SureSelect_All_Exon_V2 (https://earray.chem.agilent.com/earray/ using ELID: S0293689) for phase 1 and phase 2, and NimbleGen SeqCap_EZ_Exome v3 for phase 3
#+end_quote
- Un BED a été créé avec l' [[ http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/technical/reference/exome_pull_down_targets_phases1_and_2/README.20120518.exome.consensus][intersection des capture et CCDS]] Mais en GRCh37...
- intersection des capture + CCDS [[id:b77e64fa-06a8-4ffa-8b5b-ab3fda684b61][Données brutes exome 1000 Genomes (fastq + capture)]]
*** TODO NA12878
**** DONE En cherchant dans SRA directement
CLOSED: [2023-11-29 Wed 23:37] SCHEDULED: <2023-11-28 Tue>
https://www.ncbi.nlm.nih.gov/sra avec NA12878 et en filtrant par exome
- NovaSeq 6000 TruSeq capture SRX11061536
- NovaSeq 6000 IDT capture SRX11061526
- NovaSeq 6000 Agilent SureSelect v7 capture SRX11061516
- HiSeq 4000 TruSeq capture SRX11061506
- HiSeq 4000 IDT capture SRX11061496
- HiSeq 4000 Agilent SureSelect v7 capture SRX11061486
Note: SRX = expérience, SRR = run
Note trueseq non disponible ?
hg19 : https://www.biostars.org/p/144554/
IDT: lequel
https://www.idtdna.com/pages/products/next-generation-sequencing/workflow/xgen-ngs-hybridization-capture/pre-designed-hyb-cap-panels/exome-hyb-panel-v2
**** DONE Run avec [cite:@hwang2015]
CLOSED: [2023-11-29 Wed 23:37] SCHEDULED: <2023-11-28 Tue>
HiSeq2000 SRR515199 SureSelect v4 WES 298.45×
HiSeq2000 SRR098401 SureSelect v2 WES 116.84×
HiSeq2000 SRR1611178 SeqCap EZ Human Exome Lib v3.0 WES 79.93×
HiSeq2000 SRR1611179 SeqCap EZ Human Exome Lib v3.0 WES 79.84×
HiSeq2000 SRR292250 SeqCap EZ Exome SeqCap v2 WES 116.06×
HiSeq2500 SRR1611183 SeqCap EZ Human Exome Lib v3.0 WES 129.94×
HiSeq2500 SRR1611184 SeqCap EZ Human Exome Lib v3.0 WES 111.90×
Kit acessible ?
**** TODO Run selon [cite:@Kumaran_2019]
NA12878 SRR098401
NA24385 SRR2962669
NA24631 SRR2962693
**** Résumé
Kit disponible en hg38
| HiSeq 4000 | Agilent SureSelect v7 | SRX11061486 | https://github.com/kevinblighe/agilent |
| NovaSeq 6000 | Agilent SureSelect v7 | SRX11061516 | idem |
Kit disponible en hg19
| HiSeq2000 | SeqCap EZ Human Exome Lib v3.0 | SRR1611178 |http://hgdownload.soe.ucsc.edu/gbdb/hg19/exomeProbesets/
| HiSeq2000 | SeqCap EZ Human Exome Lib v3.0 | SRR1611179 |idem
| HiSeq2500 | SeqCap EZ Human Exome Lib v3.0 | SRR1611183 |idem
| HiSeq2500 | SeqCap EZ Human Exome Lib v3.0 | SRR1611184 |idem
https://emea.support.illumina.com/downloads/truseq-exome-product-files.html
*** Autres
**** Selon [cite:@Kumaran_2019]
NA24385 SRR2962669
NA24631 SRR2962693
*** Liste de capture
Agilent sureselect v7 hg19 et 38 https://github.com/kevinblighe/agilent
**** UCSCS
- [[http://hgdownload.soe.ucsc.edu/gbdb/hg19/exomeProbesets/][hg19]]
- [[http://hgdownload.soe.ucsc.edu/gbdb/hg38/exomeProbesets/][hg38]]
**** github aztrazeneca
https://github.com/AstraZeneca-NGS/reference_data
- IDT xGen Exome Research Panel v1.0
- Agilent SureSelect Human All Exon V6
- Agilent SureSelect Clinical Research Exome
- Nimblegen SeqCap EZ MedExome
- Nmblegen SeqCap EZ Exome v3
**** Trueseq
https://emea.support.illumina.com/downloads/truseq-exome-product-files.html
*** Exemple de validation avec bcbio:
Télécharge données + bed + liftover avec crossmap
https://github.com/bcbio/bcbio_validation_workflows/blob/master/giab-exome/input/get_data.sh
*** TODO Comment télécharger
**** DONE Tester ligne de commande
CLOSED: [2023-11-29 Wed 23:37] SCHEDULED: <2023-11-28 Tue>
***** KILL Tester aws
CLOSED: [2023-11-28 Tue 23:47] SCHEDULED: <2023-11-28 Tue>
Semble télécharger le .sra vu la taille (manque l'extension)
#+begin_src
aws s3 cp s3://sra-pub-run-odp/sra/SRR1611178/SRR1611178 --no-sign-request .
#+end_src
***** KILL Tester sra faster dump
CLOSED: [2023-11-29 Wed 22:20] SCHEDULED: <2023-11-28 Tue>
Selon la doc https://github.com/ncbi/sra-tools/wiki/08.-prefetch-and-fasterq-dump, il faut faire un "pré" - téléchargement
#+begin_src sh
prefetch SRR1611178
fastqer-dump SRR1611178
#+end_src
Note fasterq-dump créé un répertoire temporaire de la taille de prefetch et le supprime. Les fastq ne sont pas compressés
***** DONE Passer par ENA qui donne un lien vers FTP directement
CLOSED: [2023-11-29 Wed 23:37]
**** KILL Nextflow
CLOSED: [2023-12-04 Mon 23:46]
***** KILL fromSRA
CLOSED: [2023-11-29 Wed 23:15]
Ne renvoie pas le FTP pour SRR1611178/SRR1611178 même avec clé API
**** TODO DataToolkit.jl
SCHEDULED: <2023-11-28 Tue>
- plusieurs datasets par patient appelé NA12878 par exemple mais avec attributs différents (séquencer, kit, pair1, pair2)
- FTP depuis ENA (FTP)
- "meta"-dataset for the 2 fastq. Ex:
#+begin_src toml
[[data1]]
uuid = "4ac8e6a5-9430-4745-8027-551fa620c2a8"
description = "1"
[[data1.storage]]
driver = "filesystem"
checksum = "crc32c:96646914"
path = "1.txt"
[[data1.loader]]
driver = "io->file"
path = "lol.txt"
[[sequence]]
uuid = "adbaa0af-71fc-43f1-aa5d-408e9c2dc5be"
[[sequence.storage]]
driver = "raw"
value = { forward = "📇DATASET<<data1::DataToolkitBase.FilePath>>"}
[[sequence.loader]]
driver = "passthrough"
#+end_src
*** Zone de capture GIAB fourni le .bed pour l'exome . INfo : https://support.illumina.com/sequencing/sequencing_kits/nextera-rapid-capture-exome-kit/downloads.html
*** Valider la méthode
- 1000 genomes + SureSelect human all exon v2 target capture kit : non disponible sur le site d'agilent (V6 ou plus)
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-019-2928-9
- GIAB + liftover du fichire de capture en hg38
Ce qui est aussi fait par
https://bcbio-nextgen.readthedocs.io/en/stable/contents/germline_variants.html
Mais avec UCSC liftover
** Centogène
https://www.twistbioscience.com/node/23906
Bed non fourni pour exactement cette capture
On prend https://www.twistbioscience.com/resources/data-files/twist-alliance-vcgs-exome-401mb-bed-files
qui content la majeure partie
* Réunion
** <2023-08-10 Thu> Alexis
Ok pour bloquer le développment d'ici mardi prochain
Dév:
- pipeline jusque VEP en T2T + GRCh38
- ok pour valider spip T2T sur quelques variant => à intégrer au pipeline
- annotation :
- ok pour mobidetails hg38
- +OMIM T2T+ non
- +franklin hg38+ non pour le moment
- métriques (fastq a minima) + rapport multiqc
- optionnel
- reformater la sortie
- on abandonne
- XAMScissors ave indel
- parallélisation haplotype caller
- spliceai à la vollée
- pangolin
Test
- GIAB:
- hg38: ok pour refaire les tests NA12878 avec données cento, sinon ok pour "c'est difficile" sur les 3 fichiers de capture
- T2T: ok pour faire des tests rapides mais probablement pas assez de temps !
- patient de synthèse : variant cento confirém par sanger seuls
Résultats
- ok pour scale up bwa mem et haplotyecaller
Manuscrit
- validation de méthode : laisser tomber la version actuelle et faire comme strasbourg (cf ngs diag) dans la présentatino
- a envoyé le powerponit avec les références des différsences articles
- ok pour robo4 si résultat
- architecture cible = VM : 78 coeurs 54Go RAUM et 1To espace disque
Passage en production : ok pour présentation rapide du code
* Nixpkgs :nix:
** DONE GATK
CLOSED: [2023-05-06 Sat 08:51]
*** DONE [[https://github.com/NixOS/nixpkgs/pull/185819][Binaire]]
CLOSED: [2022-09-10 Sat 23:53] SCHEDULED: <2022-08-10 Wed>
/Entered on/ [2022-08-09 Tue 10:57]
PR submitted
*** KILL Corriger code pour utiliser source
CLOSED: [2022-09-11 Sun 22:05]
*** DONE Corriger PATH pour include java et python
CLOSED: [2022-10-11 Tue 11:46]
https://github.com/NixOS/nixpkgs/pull/191548
Review <2022-10-10 Mon> , corrigé dans la journée
*** DONE Update 4.3.0.0
CLOSED: [2023-04-13 Thu 09:01]
** HOLD Nextflow
*** KILL version script seule
CLOSED: [2023-04-01 Sat 18:29]
Fix pour SGE et nextflow
https://github.com/NixOS/nixpkgs/issues/192396
*** KILL Version avec gradle
CLOSED: [2022-10-09 Sun 22:51]
*** HOLD [[https://github.com/NixOS/nixpkgs/issues/192396][Bug report Version 22.10.6]]
**** Notes
Erreur :
ERROR: Cannot download nextflow required file -- make sure you can connect to the internet
Alternatively you can try to download this file:
https://www.nextflow.io/releases/v22.10.6/nextflow-22.10.6-all.jar
and save it as:
.//nix/store/md2b1ah4d7ivj82k8xxap30dmdci00pa-nextflow-22.10.6/bin/.nextflow-wrapped
Dans la mise à jour, il y a la création d'un environnement virtuel qui casse l'exécution de nextflow (besoin de télécharger)
Fix = désactiver
**** KILL Patch NXF_OFFLINE=true
CLOSED: [2023-07-02 Sun 11:02] SCHEDULED: <2023-06-11 Sun>
** WAIT [[https://github.com/NixOS/nixpkgs/pull/249329][Multiqc]]
HG002,sanger-chr20,data/HG002-sanger-inserted-chr20_1.fq.gz,data/HG002-sanger-inserted-chr20_2.fq.gz
** KILL Mutalyzer
CLOSED: [2023-08-16 Wed 19:07] SCHEDULED: <2023-08-13 Sun>
Packaging faisable mais nombreux paquet python
** TODO Variant validator -> hgvs
C'est juste une interface autour d'hgvs mais il faut
- postgresql
- un accès ou télécharger des bases de données
Dépendences
s: wcwidth, pyee, pure-eval, ptyprocess, pickleshare, parsley, parse, fake-useragent, executing, backcall, appdirs, zipp, websockets, w3lib, urllib3, traitlets, tqdm, tabulate, sqlparse, soupsieve, six, pygments, psycopg2, prompt-toolkit, pexpect, parso, lxml, idna, humanfriendly, decorator, cython, cssselect, configparser, charset-normalizer, certifi, attrs, requests, pysam, pyquery, matplotlib-inline, jedi, importlib-metadata, coloredlogs, beautifulsoup4, asttokens, yoyo-migrations, stack-data, pyppeteer, bs4, bioutils, requests-html, ipython, biocommons.seqrepo, hgvs
** TODO SPIP :spip:
*** DONE PR upstream
CLOSED: [2023-08-12 Sat 18:23] SCHEDULED: <2023-08-12 Sat 18:00>
*** DONE Mail R. Lemann :T2T:
CLOSED: [2023-08-12 Sat 18:23] SCHEDULED: <2023-08-12 Sat 18:00>
*** KILL