* Comparaison avec cento
:PROPERTIES:
:CUSTOM_ID: comparaison-avec-cento
:END:
On utilise =code/reanalysis/compare-cento.jl= qui extrait les varians
(non négatifs) de
=~/annex/data/centogene/variants/variants_centogene_final.csv= et les
cherche dans les TSV correspnodant à la sortie du pipeline dans
=~/annex/data/bisonex/annotate/full/=

#+begin_src nu
cd code/reanalysis
julia --project=.. compare-to-cento.jl  | str join | save compare-to-cento.txt -f
#+end_src

153 négatifs

#+begin_src nu
rg "not in list" compare-to-cento.txt | rg "^6" | wc -l
#+end_src

94 retrouvés

#+begin_src nu
rg -v "not in list" compare-to-cento.txt | rg Found | wc -l
#+end_src

Types de variants : 7 del, 4 dup, 1 ins et reste SNV ❯ rg found
compare-to-cento.txt -i | rg "del" | wc -l ❯ rg found
compare-to-cento.txt -i | rg "dup" | wc -l ❯ rg found
compare-to-cento.txt -i | rg "ins" | wc -l

4 échecs

#+begin_src nu
❯ rg -v "not in list" compare-to-cento.txt | rg FAILED
FAILED to find chr17:g.7884996C>T CHD3
FAILED to find chr10:g.102230760del PITX3
FAILED to find chr15:g.26869324A>T  GABRA5
FAILED to find chr11:g.14358800C>A RRAS2
#+end_src

"Au total, 4 variants non retrouvés sur 121 positifs, tous VOUS"
NB: Mail 1: erreur : NM_001372044.2:c.3727dup est bien retrouvé alors
que dit initialement que non.

- CHD3 : "une horreur à désigner"
- PITX3 : "riche en GC avec un homopolymère de 7G au niveau de la del"
- GABRA5 : "pas particulièremnt difficile"

Pourquoi sont-ils filtrés ? Notre seuil : 30 reads et 10 porteurs -
CHD3: pas assez de reads (22) :
=GT:AD:DP:GQ:PL  0/1:5,22:27:43:507,0,43= - PITX3 : pas assez de reads
avec la variation (8) : attention à la représentation car homopolymère,
il est en fait en 102230753 =GT:AD:DP:GQ:PL  0/1:26,8:34:99:146,0,671= -
GABRA5 : pas assez de reads (15) et pas assez avec variation (6)
=GT:AD:DP:GQ:PL  0/1:9,6:15:99:103,0,213= - RRAS2: pas assez de reads
mais un seuil à 29 suffirait !
=GT:AD:DP:GQ:PL  0/1:15,14:29:99:310,0,331=

** Profondeur
:PROPERTIES:
:CUSTOM_ID: profondeur
:END:
On extrait les positions et ID avec
~/research/code/bisonex/reanalysis/depth.nu Les positions au format bed
sont convertie en hg19 avec liftover. Puis on requête les VCF pour avoir
la profondeur et les reads porteur avec
=bcftools query -f '%CHROM %POS %REF %ALT %DP [ %AD ]\n' XXX.fboth.pass.vcf.gz chr17:7788314-7788314=

CHROM POS REF ALT DEPTH AD chr10 103990510 CG C 45 24,8 chr17 7788314 C
T 29 5,21 chr15 27114471 A T 78 34,42 chr11 14380346 C A 29 15,14

** Au final
:PROPERTIES:
:CUSTOM_ID: au-final
:END:
- GABRA5 était du à un FASTQ incomplet : on le retrouve bien en sortie.
- Les 3 autres variants devraient pouvoir être rattrapés en diminuant un
  peu les filtres