Review "Parallelization with Load Balancing of the Weather Model WSM7 for Heterogeneous CPU-GPU Platforms"
Review "Parallelization with Load Balancing of the Weather Model WSM7 for Heterogeneous CPU-GPU Platforms"
WES 129.94×
HiSeq2500 SRR1611184 SeqCap EZ Human Exome Lib v3.0 WES 111.90×
Kit acessible ?
**** Résumé
Kit disponible en hg38
| HiSeq 4000 | Agilent SureSelect v7 | SRX11061486 | |
| NovaSeq 6000 | Agilent SureSelect v7 | SRX11061516 | idem |
Kit disponible en hg19
| HiSeq2000 | SeqCap EZ Human Exome Lib v3.0 | SRR1611178 |
| HiSeq2000 | SeqCap EZ Human Exome Lib v3.0 | SRR1611179 |idem
| HiSeq2500 | SeqCap EZ Human Exome Lib v3.0 | SRR1611183 |idem
| HiSeq2500 | SeqCap EZ Human Exome Lib v3.0 | SRR1611184 |idem
*** Liste de capture
Agilent sureselect v7 hg19 et 38
**** UCSCS
- [[][hg19]]
- [[][hg38]]
**** github aztrazeneca
- IDT xGen Exome Research Panel v1.0
- Agilent SureSelect Human All Exon V6
- Agilent SureSelect Clinical Research Exome
- Nimblegen SeqCap EZ MedExome
- Nmblegen SeqCap EZ Exome v3
**** Trueseq
*** Exemple de validation avec bcbio:
Télécharge données + bed + liftover avec crossmap
Comment télécharger
Tester ligne de commande
Tester aws
Semble télécharger le .sra vu la taille (manque l'extension)
aws s3 cp s3://sra-pub-run-odp/sra/SRR1611178/SRR1611178 --no-sign-request .
Tester sra faster dump
Selon la doc, il faut faire un "pré" - téléchargement
#+begin_src sh
prefetch SRR1611178
fastqer-dump SRR1611178
Note fasterq-dump créé un répertoire temporaire de la taille de prefetch et le supprime. Les fastq ne sont pas compressés
Passer par ENA qui donne un lien vers FTP directement
Nextflow
***** KILL fromSRA
CLOSED: [2023-11-29 Wed 23:15]
Ne renvoie pas le FTP pour SRR1611178/SRR1611178 même avec clé API
**** TODO DataToolkit.jl
- plusieurs datasets par patient appelé NA12878 par exemple mais avec attributs différents (séquencer, kit, pair1, pair2)
- FTP depuis ENA (FTP)
*** Zone de capture GIAB fourni le .bed pour l'exome . INfo :
*** Valider la méthode
- 1000 genomes + SureSelect human all exon v2 target capture kit : non disponible sur le site d'agilent (V6 ou plus)
- GIAB + liftover du fichire de capture en hg38
Ce qui est aussi fait par
Mais avec UCSC liftover
** Centogène
Bed non fourni pour exactement cette capture
On prend
qui content la majeure partie
* Réunion
** <2023-08-10 Thu> Alexis
Ok pour bloquer le développment d'ici mardi prochain
- pipeline jusque VEP en T2T + GRCh38
- ok pour valider spip T2T sur quelques variant => à intégrer au pipeline
- annotation :
- ok pour mobidetails hg38
- +OMIM T2T+ non
- +franklin hg38+ non pour le moment
- métriques (fastq a minima) + rapport multiqc
- optionnel
- reformater la sortie
- on abandonne
- XAMScissors ave indel
- parallélisation haplotype caller
- spliceai à la vollée
- pangolin
- hg38: ok pour refaire les tests NA12878 avec données cento, sinon ok pour "c'est difficile" sur les 3 fichiers de capture
- T2T: ok pour faire des tests rapides mais probablement pas assez de temps !
- patient de synthèse : variant cento confirém par sanger seuls
- ok pour scale up bwa mem et haplotyecaller
- validation de méthode : laisser tomber la version actuelle et faire comme strasbourg (cf ngs diag) dans la présentatino
- a envoyé le powerponit avec les références des différsences articles
- ok pour robo4 si résultat
- architecture cible = VM : 78 coeurs 54Go RAUM et 1To espace disque
Passage en production : ok pour présentation rapide du code
Nixpkgs
Binaire
PR submitted
PR submitted
Corriger code pour utiliser source
*** DONE Corriger PATH pour include java et python
CLOSED: [2022-10-11 Tue 11:46]
Update
Nextflow
*** KILL version script seule
Fix pour SGE et nextflow
Version avec gradle
Bug report Version 22.10.6
**** Notes
Erreur :
ERROR: Cannot download nextflow required file -- make sure you can connect to the internet
Alternatively you can try to download this file:
and save it as:
Dans la mise à jour, il y a la création d'un environnement virtuel qui casse l'exécution de nextflow (besoin de télécharger)
Fix = désactiver
Patch NXF_OFFLINE=true
** WAIT [[][Multiqc]]
** KILL Mutalyzer
Packaging faisable mais nombreux paquet python
** TODO Variant validator -> hgvs
C'est juste une interface autour d'hgvs mais il faut
- postgresql
- un accès ou télécharger des bases de données
s: wcwidth, pyee, pure-eval, ptyprocess, pickleshare, parsley, parse, fake-useragent, executing, backcall, appdirs, zipp, websockets, w3lib, urllib3, traitlets, tqdm, tabulate, sqlparse, soupsieve, six, pygments, psycopg2, prompt-toolkit, pexpect, parso, lxml, idna, humanfriendly, decorator, cython, cssselect, configparser, charset-normalizer, certifi, attrs, requests, pysam, pyquery, matplotlib-inline, jedi, importlib-metadata, coloredlogs, beautifulsoup4, asttokens, yoyo-migrations, stack-data, pyppeteer, bs4, bioutils, requests-html, ipython, biocommons.seqrepo, hgvs
SPIP
PR upstream
Mail R. Lemann
*** KILL Mise à jour T2T :T2T:
*** WAIT Corriger PR
VEP
BioPerl
PR submitted
PR submitted
*** DONE BioDBBBigFile
/Entered on/ [2022-08-10 Wed 14:28]
On utilise la dernière version de kent, donc plus de problème.
Version de kent déjà packagée : forcer version 335
$ zgrep -c 'PASS' HG001_GRCh38_1_22_v4_lifted_merged.vcf.gz
$ zgrep -c '^chr' HG001_GRCh38_1_22_v4_lifted_merged.vcf.gz
1/4 SNP manquant ?
Regarder avec Julia si ce sont vraiment des FP: 61/5277 qui ne le sont pas
Examiner les FP
******* DONE Tester un FP
2 │ chr1 608765 A G ./.:.:.:.:NOCALL:nocall:. 1/1:FP:.:ti:SNP:homalt:188
liftDown UCSC: rien en GIAB : vrai FP
3 │ chr1 762943 A G ./.:.:.:.:NOCALL:nocall:. 1/1:FP:.:ti:SNP:homalt:287
4 │ chr1 762945 A T ./.:.:.:.:NOCALL:nocall:. 1/1:FP:.:tv:SNP:homalt:287
Remaniements complexes ? Pas dans le gène en HG38
******* DONE La plupart des FP (4705/5566) sont homozygotes: erreur de référence ?
Sur les 2 premiers variants, ils montrent en fait la différence entre T2T et GRCh38
Erreur à l'alignement ?
relancer l'alignement
vérifier reads identiques hg38 et T2T: oui
T2T CHR1608765
38 chr1:1180168-1180168
T2T CHR1608765
38 chr1:1180168-1180168 (
Vérifier quelques variants sur IGV
Répartition des FP : cluster ?
Examiner les FP restant après correction selon séquence de référence
****** HOLD Examiner les variants supprimé
Enlever les FP qui correspondent à un changement dans le génome
******* Condition:
- pas de variation à la position en GRCh38
- variantion homozygote
- la varation en T2T correspond au changement de pair de base GRC38 -> T2T
pour les SNP:
alt_T2T[i] = DNA_GRC38[j]
avec i la position en T2T et j la position en GRCh38
Note: définir un ID n'est pas correct car les variants peuvent être modifié par happy !
******* Idée
- Pour chaque FP, c'est un "faux" FP si
- REF en hg38 == ALT en T2T
- et REF en hg38 != REF en T2T
- et variant homozygote
Comment obtenir les séquences de réferences ?
1. liftover
2. blat sur la séquence autour du variant
3. identifier quelques reads contenant le variant et regarder leur aligneement en hg38
Après discussion avec Alexis: solution 3
******* Algorithme
1. Extraire les coordonnées en T2T des faux positifs *homozygote*
2. Pour chaque faux positif
1. lister 10 reads contenant le variant
2. pour chacun de ces reads, récupérer la séquence en T2T et GRCh38 via le nom du read dans le bam
3. si la séquence en T2T modifiée par le variant est "identique" à celle en GRCh38, alors on ignore ce faux positif
Note: on ignore les reads qui ont changé de chromosome entre les version
******* DONE Résultat préliminaire
cf [[file:~/roam/research/bisonex/code/giab/giab-corrected.csv][script julia]]
3498 faux positifs en moins, soit 0.89 sensibilité
julia> tp=15479
julia> fp=5277
julia> tp/(tp+fp)
julia> tp/(tp+(fp-3498))
On est toujours en dessous des 97%
******* HOLD Corriger proprement VCF ou résultats Happy
******* TODO Adapter pour gérer plusieurs variants par read
****** DONE Méthodologie du pangenome
CLOSED: [2023-10-03 Tue 21:28]
Mail alexis
Méthodologie T2T
Mail alexis
Mail alexis
Rendre simplement le nombre de vrais positifs
SCHEDULED: <2023-12-08 Fri>
Mail Yannis
Mail GIAB pour version T2T
HG002
HG003
HG004
Plot : ashkenazim trio
Refaire résultats
Refaire résultats
Mail Paul sur les résultat ashkenazim +/- centogene
Relancer comparaison GIAB avec GATK 4.4.0
**** TODO Re-télécharger proprement dans pipeline dédiés
Cf [[*Validation : Quelles données de référence ?][Validation : Quelles données de référence ?]]
HG001
Avec données en hg38
****** TODO Avec données en hg19
Utiliser crossmap ! (inspiré de [[][bcbio]]
pour vérifier
HG002
HG003
HG004
Refaire les analyses pour avoir meilleurs résultats
On veut les résultats de
On veut les résultats de
avec conda
rtgveval
Relancer
Platinum genome
Tester sur la zone couverte par l'exome centogène
*** DONE Séquencer NA12878 :cento:hg001:
CLOSED: [2023-10-07 Sat 17:59]
ADN commandé
Sauvegarder les données brutes
K, scality, S
K, scality, S
**** KILL Récupérer le fichier de capture
Candidats donnés dans publication
In short, the Nextera Rapid Capture Exome Kit (Illumina, San Diego, CA), the SureSelect Human All Exon kit (Agilent, Santa Clara, CA) or the Twist Human Core Exome was used for enrichment, and a Nextseq500, HiSeq4000, or Novoseq 6000 (Illumina) instrument was used for the actual sequencing, with the average coverage targeted to at least 100× or at least 98% of the target DNA covered 20×.
Par défaut, on utilisera
ANnonce récente pour nouveau panel Twist :
