LJ2RW6IZC67XTZEJO4ZCFN625XC3ZOVJSBUG4VQ2F3ILS6ELBCIAC
GGUC6BRBVBMIWZAYAYHNLL37QXWKTUUANB4PBMHIJIBJWBWP7JPAC
KJNYAKSJRMLIGUAM22N7CTOBWYHZ2TFD2NY5WSFWRRDU5IEWOMIAC
2PCPZD3BFBJXDOFKKSKVSPM7XZ7RQJQ3D7V7XD2C3ROEL5KDIICAC
FXA3ZBV64FML7W47IPHTAJFJHN3J3XHVHFVNYED47XFSBIGMBKRQC
3WBY7ELOD4XA65WEV3UCLE6VUAGGF4T27WUYXN75QAOSYRPFEEMAC
LD54JIMB46YE2IEWVIGFMN25ACP6YZMR4OIU6XJUND5HBJJOPU4QC
YWWEIWM4CNSJTZE2FPFYBB3OMQOP62BKPL5PXEDUL5M3KLNRJQ3QC
LGNTJMWSZ3DVZNAQMQQWSRSP46RXH5WXMBQ546LL6PVUTLSFJAUAC
OQ4PNK4RQDMBMHPAIIBL3ZPQSQOPYKQSARJ46WRI6IRZNXABEQYAC
GKG3LEQDLFB5YKEI5DZMJS6FKZRSM6L54ZB6ZMQVSNIZ7SFU7UGAC
7UCW5ZF74LJ426HTUSTBLYSFGF2GSOY47EH7GZPPRWD3XKVAI4XAC
UPNBONLATA6EOXDE4CPO2ZHJI2XC62YATCJVEMAJ3BSFNLNHY5CQC
E22LJP4FLYXYGD3WCHOV64RX6H3MOTKQV3ZBZOBWBON6CTL64CCAC
RINTICZBB626O33E6A27VFDRZL7GG2KUT2KYIQCT73AXP6RG4KAQC
VAJ4IGPVOC32AVK7ULFHDZSDPD26IZ6LIXNJIRZGUV6HOPGTMSWQC
YRRR242PJDEY7YM4KMF73QV5ITG6HBANXLNL7OA5PZPH7IZFN33QC
7QQOACUMLIEIUWIGG2WPUUBY6FG3XCNK7CYY4GIZCRY7KSSQIVSQC
Q46IVB6DYWJI7EAXQ7ROWCUTL7XRFYWFUGTWSFOITWEMMSQMQ5DAC
GZTJGHVAMN425GOH4JX5XAIML6CQ5WGTZ4JHTL5YRTNC7NR6RVWAC
JJ4KXENNDW2GGB6NP5ZJM6QLSMYFULX2QVCVMOG52OTS2BWRIDQAC
Y4X2CGFKO6ZYMC4MU43CKFQGLHOO45KPCZXXIYD7RL7LYQCVXIQQC
E6IT367DUB6XHDSF5QHCFQNLUBCHPPBW4NTVYSUNGVRO7N42MYMQC
DFVVNGNOV4PHKNZ4EPD7RWWP6VTXRUGBVP66UIF2YCH6YAVHW3LAC
*** Best practices for the analytical validation of clinical whole-genome sequencing intended for the diagnosis of germline disease
*** NA12878
**** KILL [[https://precision.fda.gov/challenges/truth/results][fdaPrecision challenge]]
Attention, génome et en hg19 donc comparaison non adaptée ...
**** TODO Best practices for the analytical validation of clinical whole-genome sequencing intended for the diagnosis of germline disease
SCHEDULED: <2023-03-04 Sat>
Peu d’info sur la bionfo, sauf Supplementary :
1. variant calling seul
2. NA12878 + données simulées
3. exome
4. évalué via F-score
Résultat: BWA/Novoalign_DeepVariant
Aligneurs
- BWA-MEM 0.7.16
- Bowtie2 2.2.6
- Novoalign 3.08.02
- SOAP 2.21
- MOSAIK 2.2.3
Variantcalling
- GATK HaplotypeCaller 4
- FreeBayes 1.1.0
- SAMtools mpileup 1.7
- DeepVariant r0.4
SNV
| Exome | Pipeline | TP | FP | FN | Sensitivity | Precision | F-Score | FDR |
| 1 | BWA_GATK | 23689 | 1397 | 613 | 0.975 | 0.944 | 0.959 | 0.057 |
| 2 | BWA_GATK | 23946 | 865 | 356 | 0.985 | 0.965 | 0.975 | 0.036 |
indel
| TP | FP | FN | Sensitivity | Precision | F-Score | FDR | |
| 1254 | 72 | 75 | 0.944 | 0.946 | 0.945 | 0.054 | |
| 1309 | 10 | 20 | 0.985 | 0.992 | 0.989 | 0.008 | |
Valeur brutes :
https://static-content.springer.com/esm/art%3A10.1186%2Fs12859-019-2928-9/MediaObjects/12859_2019_2928_MOESM8_ESM.pdf
Autres articles avec même comparaison en exome sur NA12878
- Hwang et al., 2015 studyi
- Highnam et al, 2015
- Cornish and Guda, 2015
***** TODO Comprendre pourquoi on est inférieur à Kumaran et al 2019
SCHEDULED: <2023-03-05 Sun>
****** TODO Comprende/améliorer Recall SNP 0.855
SCHEDULED: <2023-03-04 Sat>
******* TODO Regarder les FN (SNP)
SCHEDULED: <2023-03-04 Sat>
******** Manuel:
NC_000001.11:1385919 pas de read 1/1:FN:.:i1_5:INDEL:homalt:.
NC_000001.11:1623412 1 read 1/1:FN:.:ti:SNP:homalt:.
NC_000001.11:1668449 33 read sur 160 voient l'allèle alternative 1/1:FN:am:ti:SNP:homalt:.
NC_000001.11:1676135 67 reads, non vu 0/1:FN:.:ti:SNP:het:.
NC_000001.11:1734812 1/1:FN:.:ti:SNP:homalt:.
NC_000001.11:1745808 1/1:FN:.:ti:SNP:homalt:.
NC_000001.11:1745814 1/1:FN:.:ti:SNP:homalt:.
NC_000001.11:1953616 1/1:FN:.:ti:SNP:homalt:.
NC_000001.11:2512975 0/1:FN:.:ti:SNP:het:
****** TODO Comparer avec stats de NA12878 dans example/happy sur chr21 (exons fournis)
******* DONE DP_over_30_not_SNP_consensual_sequence.vcf: horrible
On confirnme le nombre de SNP:
❯ awk '!/^#/ && $10~/:FN:/ && $10~/SNP/' test-allchr.vcf | wc -l
6665
Une minorité concerne des problème d'haploides
❯ awk '!/^#/ && $10~/:FN:/ && $11!~/NOCALL/ && $10~/SNP/' test-allchr.vcf
304
avec 1/3 où l'exome manque une allèles
❯ awk '!/^#/ && $10~/:FN:/ && $11!~/NOCALL/ && $10~/SNP/ && $10~/homalt/' test-allchr.vcf | wc -l
101
et 2/3 où il y a une allèle "en trop"
La majorité ne sont pas vu
❯ awk '!/^#/ && $10~/:FN:/ && $11~/NOCALL/ && $10~/SNP/' test-allchr.vcf | wc -l
6361
Nombre de reads pour chaque position en bash (!)
#+begin_src bash
awk '!/^#/ && $10~/:FN:/ && $11~/NOCALL/ && $10~/SNP/ {print $1":"$2"-"$2}' test-allchr.vcf | xargs -I {} sh -c 'echo -n {}";"; samtools view ../NA12878_NIST.b
am {} | wc -l' > count.csv
#+end_src
On examine avec Julia
#+begin_src julia
using CSV, DataFrames
f = DataFrame(CSV.File("count.csv", header=false))
size(f[f.Column2 .< 10,:])
#+end_src
(4430, 2)
Est-on dans des exons ?
Ça a l'air sur des exemples simples ...
****** TODO Vérifier qu'il ne manque pas des exons (avec bam ?)
SCHEDULED: <2023-03-05 Sun>
***** KILL Comparer avec stats de NA12878 dans example/happy sur chr21 (exons fournis)
CLOSED: [2023-03-04 Sat 11:01]
****** DONE DP_over_30_not_SNP_consensual_sequence.vcf: horrible
********* 14582339: FN mais pas de reads...
********* 14583327 idem
********* 17512551 idem
********* 17567111: difference d'haplotype
********* 17567621 pas de reads
******** 14582339: FN mais pas de reads...
******** 14583327 idem
******** 17512551 idem
******** 17567111: difference d'haplotype
******** 17567621 pas de reads