J7YEGYGWC6GPVDJ2B3YYX2VXOXSSCHSGTSQATCQWQ4SEDII2T6PQC
4L54QXRM2TRFBHOZGODNFGEAVCIPXA47D3Z6XZAW3NZB423XCLCQC
QNOHSXPZL3LOF2XLKBI7Z3M5T6B2BE5IR7MF23DON2L4OVFZJTHQC
5SI3737GTSX2G3K2TYPXR6LRVWVO322B4RJOFK6E7EFHGUFZHA7QC
23373JIWFDMVTTR5FS742Q3JXJBSJWHOXRHYSOCDJCIWCII2454AC
RHWQQAAHNHFO3FLCGVB3SIDKNOUFJGZTDNN57IQVBMXXCWX74MKAC
MBP6ODTYOWRLKV77KISV4JT3ZVKK6ZCAYIYQXE2WF6NEM6VF23XAC
4FZ6627CHEHJTPLHE7MF6ZVFJKSDUAKOBGMJZ6QBR2HARWWCXOFQC
*** Notes
Quelle version du génome ? Il y a 2 notations pour les chrosome: Refseq (NC_0001) ou chr1, chr2...
dbSNP utilise Refseq
pour le fasta, 2 solutions
- refseq : "https://ftp.ncbi.nlm.nih.gov/refseq/H_sapiens/annotation/${genome}_latest/refseq_identifiers/${fna}.gz"
-> nécessite d'indexer le fichier (long !)
- chromosome https://ftp.ncbi.nlm.nih.gov/genomes/all/GCA/000/001/405/GCA_000001405.15_GRCh38/seqs_for_alignment_pipelines.ucsc_ids/
-> nécessite d'annoter les chromosomes pour corriger (avec le fichier gff)
On utilise la version chromosome donc on annote dbSNP (à faire)