UKSZDP2IYDPAH3JESIVXTHXUJRDIJWB3HOTIFEHUJAM7KFEY2VOQC
ZUI7BC7R4OQX67NTN3EMN4WOGOZ2ZOI6UPO3NNFEM35SSH5ZK5AQC
EOZSQ7457A6ZEBQTDNBPHVILS36HZYTU2OOOXWRXFHZMI4RZAOJQC
RUPKCDDFWKIVFSSAXYEIW3WKSEQD422O4RXEJZWWE6FGB2IB7GSAC
LELKY6NPY7VWL4Y37R3F7GEM22YU2KI66DMC3QLGBXYWF3GMZS4AC
ZTBFSKO73OZIVCXJWFQ2B6GKEBEBCHPADX432HTSO3XR3P3J4ZSAC
2QF7HCG5CLNOBSZUKSHRI2MR4FHHXWY22ZP7JMWD52ZSO2LO2DLAC
JIURDTJWZVONBBESXWAVKJRHM4QHKNACPS5YV7TWW7WMNM7HYN6QC
KVTDFHZ3QKPWGPMHX6SVJQ7DJD76XR3MKOYKOPNVMQOTER3TYRCQC
B6APD6LRE4UWIIZNSB5AIUCFY4GTG73LSCDOGNBLZCZMGSJCB5BQC
KFLC4I2NGCBQBKP52BGLJWATUBZTXA3NAFD4R4T7V3VBPRWCY7AQC
:PROPERTIES:
:ID: e2286a36-c6dd-45ae-b887-7feec35aa929
:END:
#+title: Article JOSS bisonex
#+filetags: bisonex recherche article
Avantages:
- Publication "facile" dans JOSS : 1h max pour écrire les contributions d'après le journal.
- critère : >= 3 mois de travail.
- Contributions dans un project acceptés
- Continuation logique de la thèse
Objectifs :
- dépendences de sarek
- fournir les basse de données avec scidataflow (CLI en rust)
Quantité de travail :
- quelques logiciels restants à packager (deepvariant = difficile par contre)
- créer un répo pour les /assets/ et mettre en issue
Stratégie
1. packages nix vu le délai d'acceptation...
2. repo /assets/
- [-] Aligneur
- [X] (BWA-mem/mem2 : déjà disponibles)
- [X] (Sentieon : payant)
- [ ] Dragmap
- [X] mosdepth
- [-] Appel de variants (constit !)
- [X] (CNVkit : déjà disponible)
- [ ] Deepvariant
- [X] (freebayes : déjà disponible)
- [X] GATK HaplotypeCaller: fait
- [X] (Manta : déjà disponible)
- [X] (mpileup : déjà disponible dans samtools
- [X] (Sentieon Haplotyper : payant)
- [X] (Strelka2 : déjà disponible)
- [ ] Tiddit
- [-] Annotation
- [X] (snpeff : déjà disponible)
- [ ] vep : PR soumiss
- [ ] multiqc : PR soumis
* Assets avec scidataflow
Problèmes :
- pull sur seulement un sous-dossier (à implémenter)
- préparer les données : script bash ?
- extraire fna.gz -> fna
#+begin_src sh
find . -name *.fna.gz -exec gunzip {} \;
find . -name *.bwa_index.tar.gz -exec tar xvzf {} \;
#+end_src
* Dépendences avec Nix
Galaxy = juste un wrapper autour de SRA https://usegalaxy.org/?tool_id=toolshed.g2.bx.psu.edu%2Frepos%2Fiuc%2Fsra_tools%2Fsam_dump%2F3.1.1%2Bgalaxy0&version=latest
* Base de tests (intéressant)
** Google brain sur AWS
Une copie des données de Baid2020
https://genomics-benchmark-datasets.s3.amazonaws.com/README.txt
#+begin_src
aws s3 ls s3://genomics-benchmark-datasets/google-brain/fastq/hiseq4000/ --no-sign-request
PRE wes_agilent/
PRE wes_idt/
PRE wes_truseq/
#+end_src
** GATK test data sur AWS: non
https://s3.amazonaws.com/gatk-test-data/gatk-test-data-readme.html
Quasiment rien en bam
#+begin_src sh
❯ aws s3 ls s3://gatk-test-data/exome_bam/1000G_wex_hg38/ --no-sign-request
2019-03-01 22:33:36 4379640 HG00133.alt_bwamem_GRCh38DH.20150826.GBR.exome.bai
2019-03-01 22:33:38 13105459770 HG00133.alt_bwamem_GRCh38DH.20150826.GBR.exome.bam
#+end_src
IL y a NA12878 BAM
* Galaxy: non
Juste un wrapper autour de SRA https://usegalaxy.org/?tool_id=toolshed.g2.bx.psu.edu%2Frepos%2Fiuc%2Fsra_tools%2Fsam_dump%2F3.1.1%2Bgalaxy0&version=latest
# Données
SRA = dispon sur AWS également https://registry.opendata.aws/ncbi-sra/
1000 génomes sur AWS https://registry.opendata.aws/1000-genomes/
broad genomes = (pas les version intermédiaires ?) https://s3.amazonaws.com/broad-references/broad-references-readme.html
GIAB https://registry.opendata.aws/giab/
1000 génomes avec dragen https://registry.opendata.aws/ilmn-dragen-1kgp/
* Données
- SRA = dispon sur AWS également https://registry.opendata.aws/ncbi-sra/
- 1000 génomes sur AWS https://registry.opendata.aws/1000-genomes/
- broad genomes = (pas les version intermédiaires ?) https://s3.amazonaws.com/broad-references/broad-references-readme.html
- GIAB https://registry.opendata.aws/giab/
- 1000 génomes avec dragen https://registry.opendata.aws/ilmn-dragen-1kgp/
* Exomevalidator