NIC5KGGV4H3MP55L54BPM2RAAGUBPAAJYYMUNXTNT5ZZQ72JHMZQC
BSZSUYUWGGM7DKBXK3AZZJFWFWLODMNPLDTAEHY7PWK2PI2NSCIQC
J7YEGYGWC6GPVDJ2B3YYX2VXOXSSCHSGTSQATCQWQ4SEDII2T6PQC
VEC2FD4WS66M35RUWGT7TYBKLIASFG7BMRNRPFUS35YK55QRDHHAC
RHWQQAAHNHFO3FLCGVB3SIDKNOUFJGZTDNN57IQVBMXXCWX74MKAC
O5A3MCV34NQOOBIRBQSFKTLFQLTTC3XXNBYJEXVXBVHVMVLAWYBAC
5SI3737GTSX2G3K2TYPXR6LRVWVO322B4RJOFK6E7EFHGUFZHA7QC
WYI73VSQH53X42QU6NX3ZQIJIBIBCOFQKMTTP25Q3TEZKQ6SRVPAC
BZJ67KVHKF5LK3W6GQRJEDTLYFNP524EJ3NBACZJJ25JDCTRSBFAC
23373JIWFDMVTTR5FS742Q3JXJBSJWHOXRHYSOCDJCIWCII2454AC
MBP6ODTYOWRLKV77KISV4JT3ZVKK6ZCAYIYQXE2WF6NEM6VF23XAC
CODKUGR4OH2GM2GYYVDC3HYIF3PMOFOJAMXQBH6TUJUFEBN4STYQC
OUOSIJIGRPXOBNG2PQDMIUVJKQX4QDTKBMT44Q4KVQ5SF6CEQ3IAC
4L54QXRM2TRFBHOZGODNFGEAVCIPXA47D3Z6XZAW3NZB423XCLCQC
*** Biblio
Comparaison WDL, Cromwell, nextflow
https://www.nature.com/articles/s41598-021-99288-8
Nextflow = bon compromis ?
*** Notes
Quelle version du génome ? Il y a 2 notations pour les chrosome: Refseq (NC_0001) ou chr1, chr2...
dbSNP utilise Refseq
pour le fasta, 2 solutions
- refseq : "https://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/${genome}_latest/refseq_identifiers/${fna}.gz"
-> nécessite d'indexer le fichier (long !)
- chromosome https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/
-> nécessite d'annoter les chromosomes pour corriger (avec le fichier gff)
On utilise la version chromosome donc on annote dbSNP (à faire)
*** Améliorer le workflow
**** STRT Nix pour les dépendences
**** STRT Nix pour télécharger les données brutes
**** TODO test Bionix
**** TODO Implémenter execution avec Nix ?
=======
Utilise une versionn allégée de GnomAD (une seule colonne)
**** HOLD test Bionix
**** KILL Implémenter execution avec Nix ?
CLOSED: [2022-08-31 Wed 11:09]
Voir https://academic.oup.com/gigascience/article/9/11/giaa121/5987272?login=false
pour un exemple.
Probablement plus simple d’utiliser Nix pour gestion de l’environnement et snakemake pour l’exécution
**** STRT Exécution avec nextflow
**** TODO Télécharger données avec Makefile
Pour mésocentre
*** Simulation sur mésocentre
**** Réunion <2022-08-31 Wed>
Intervenants:
- Kamel Mazouzi (directeur adjoint informatique)
- Sekou Diakité
2 clusters :
- Lumière : Centos non mis à jour, SGE, Spack comme équivalent Nix
- Helios : moins de coeurs mais à jours, Slurm
Conclusion :
- essai d’installation Nix
- si échec, essayer Spack ou Conda
- répertoire partagé de 2To pour datasets
- soumission de jobs sous Nextflow à discuter dans un second temps
**** WAIT Installation nix
*** TODO Installer le pipeline d’Alexis
SCHEDULED: <2022-07-30 Sat>
**** KILL Utiliser docker
**** STRT Utiliser nix avec exactement la même configuration
**** STRT Exécution avec nextflow
**** TODO Télécharger données avec Makefile
Pour mésocentre
*** Simulation sur mésocentre
**** Réunion <2022-08-31 Wed>
Intervenants:
- Kamel Mazouzi (directeur adjoint informatique)
- Sekou Diakité
2 clusters :
- Lumière : Centos non mis à jour, SGE, Spack comme équivalent Nix
- Helios : moins de coeurs mais à jours, Slurm
Conclusion :
- essai d’installation Nix
- si échec, essayer Spack ou Conda
- répertoire partagé de 2To pour datasets
- soumission de jobs sous Nextflow à discuter dans un second temps
**** WAIT Installation nix
*** Biblio
Comparaison WDL, Cromwell, nextflow
https://www.nature.com/articles/s41598-021-99288-8
Nextflow = bon compromis ?
*** Notes
Quelle version du génome ? Il y a 2 notations pour les chrosome: Refseq (NC_0001) ou chr1, chr2...
dbSNP utilise Refseq
pour le fasta, 2 solutions
- refseq : "https://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/${genome}_latest/refseq_identifiers/${fna}.gz"
-> nécessite d'indexer le fichier (long !)
- chromosome https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/
-> nécessite d'annoter les chromosomes pour corriger (avec le fichier gff)
On utilise la version chromosome donc on annote dbSNP (à faire)