VZ5Z6PVL7H7RDOQKH27QW25D447LDONCQR3BFFMMGDU6PRXXNRUQC
*** GIAB: NA12878
* Idées
** Validation analytique
mail Yannis : données patients +/- simulées
*** Utiliser données GCAT et uploader le notre ?
https://www.nature.com/articles/ncomms7275
*** [#A] Genome in a bottle : NA12878 + autres
2 versions :
1. Depuis un fastq correspondant à Illumina https://github.com/genome-in-a-bottle/giab_data_indexes
puis on compare le VCF avec les "high confidence"
2. On séquence directement NA12878 -> inutile pour le pipeline seul
Tout résumé ici : https://www.nist.gov/programs-projects/genome-bottle
Article comparant les variant calling : https://www.biorxiv.org/content/10.1101/2020.12.11.422022v1.full.pdf
Article pour vcfeval : https://www.nature.com/articles/s41587-019-0054-x
*** Génerer des données de séquencage à partir de variant connu
https://bmcbioinformatics.biomedcentral.com/articles/10.1186/s12859-020-03665-5
1. génerer un modèle prenant en compte les biais d’Illumina
2. Génerer des fastq à partir de variants connus (ceux de centogène ??)
*** Vérifier les variants de centogene
* Idées
** Validation analytique
*** Génération de reads avec variants connus
Article comparant les variant calling : https://www.biorxiv.org/content/10.1101/2020.12.11.422022v1.full.pdf
Article pour vcfeval : https://www.nature.com/articles/s41587-019-0054-x
*** [#B] Patients centogène avec variants vérifié en Sanger
*** [#B] Génération de reads avec variants connus
*** Utiliser données GCAT et uploader le notre ?
https://www.nature.com/articles/ncomms7275
*** Genome in a bottle : NA12878 + autres
2 versions :
1. Depuis un fastq correspondant à Illumina https://github.com/genome-in-a-bottle/giab_data_indexes
puis on compare le VCF avec les "high confidence"
2. On séquence directement NA12878 -> inutile pour le pipeline seul