:PROPERTIES:
:ID:       a7083115-3833-4a47-8520-4bfc2b08bd3a
:END:
#+title: Donato2021

17 aligneurs. Comparaison récente d'aligneurs pour Illumina et Ion torrent.
**** Notes
Données
- simulées (génomique):
  - humain (GRCh38.p13) et souris
  - read 50bp et 150bp
  - génération de reads avec erreur aléatoire selon modèle statistique basé sur couverture, erreur de séquencage, distribution mutation, GC
  - ART,DWGSIM, WGSIM, MASON, CURIM
- réelles : 4 échantillons
  - 1 RNA-seq, 1 genome (rétinine pigmentaire) sur Io torrent
  - 1 RNA seq et 1 exome (ostéomyélite) sur illumina hiset 2500 (paired end)

Méthode:
- calcul sur données simulée
- sensibilité = reads mappé correctement/reads mappé incorrect (seuil fixé)
- scores
  - MAPQ = 10log_10 proba que la psoition soit fausse
  - Alignement Scores = similarité entre query et référence : proportionel au nombre de matches et inv. prop au nombre de mismaps et gaps
  - grand AS  et petit MAPQ = alignement parfait à plusieurs position.
  - petit AS  et grand MAPQ = alignement avec discordance mais la positdion est la plus probable
- mapping efficinency = nombre de reads aligné.
  - dépend de la longueur des reads, de leur qualité, absence contamination, logiciel, génome de référence +/- librairie
  - note: clipping dears reads = les extrémitiés qui ne s'alignent pas sont ignées
- distribution selon les régions GENCODE
- distribution indel
- GC biais. Théoriquement chez les humaine, gaussienne autour de 41%
- duplicats (préparation échantillion ou 1 cluster amplification) -> les supprimer n'implique pas forcément une augmentation de la précision
- 6 coeurs i7 32Gob RAM

Résultat:
- données simulée en paired-end: meilleur = BBMAP, BWA-MEM, Novoalign, DNASTAR, YARA,
Segemehl and TopHat2
- Échantillons :
  - accuracy (si chaque read a bien été aligné: comment est-il calculé sur données non simulées TODO ???): novoalign, DNASTAR.
  - Meilleur résultat pour exon mapping (nombre d'exons marqué comme tels par kb) = Segemehl
  - *Pire résultat pour exon alignement : BWA*. Meilleur = variable selon écdhantillons mais RUM, Segemehl pour WES, novolagin pour WGS
  - CLC, BWA-MEM, GEM and Magic-BLAST ont le plus grand nombre de reads alignés
  - clipped reads : bowtie2, esegemehld et tophat2 = peu de clipping sur exome/génome
  - délétion : distribution augmentée pour génome sur toute la longueur du read pour tous mapper
  - GC: génome : aucun aligner n'a une distribution romale !! (biais de séquencage). Exome= double pic pour bowtie2, bwa, gema, minimap2, star, subrdea
  - duplicats : faible pour dna

Performances : dépend de la longeur du reads et du nombre de reads
- mémoire : milimu = tophat2, bwa, bwa-mem, hisat2, bowtie2, GEM < 10Gb
-> utiliser plutôt [cite:@alser2021] pour données brutes (figure trop petite, mauvaise méthodo)

Conclusion
- single-end = moins de redas mappé mais diminué nombre d'alignement multiples
- paired-end = plus de reads mappé, meilleur efficacaté, meilleurs reads uniquué mappé (exome) => compromose efficacicé et qualité
- magic-blast = aligne le plus de redas mais peu précise. novoalign et dnastar = meilleur qualité. Segemehl et novoalign pour exon.
- le plus rapide = subread puis minimap2. .segemelhl, tophat2 et novoalign = les lpus lents