:PROPERTIES: :ID: a7083115-3833-4a47-8520-4bfc2b08bd3a :END: #+title: Donato2021 17 aligneurs. Comparaison récente d'aligneurs pour Illumina et Ion torrent. **** Notes Données - simulées (génomique): - humain (GRCh38.p13) et souris - read 50bp et 150bp - génération de reads avec erreur aléatoire selon modèle statistique basé sur couverture, erreur de séquencage, distribution mutation, GC - ART,DWGSIM, WGSIM, MASON, CURIM - réelles : 4 échantillons - 1 RNA-seq, 1 genome (rétinine pigmentaire) sur Io torrent - 1 RNA seq et 1 exome (ostéomyélite) sur illumina hiset 2500 (paired end) Méthode: - calcul sur données simulée - sensibilité = reads mappé correctement/reads mappé incorrect (seuil fixé) - scores - MAPQ = 10log_10 proba que la psoition soit fausse - Alignement Scores = similarité entre query et référence : proportionel au nombre de matches et inv. prop au nombre de mismaps et gaps - grand AS et petit MAPQ = alignement parfait à plusieurs position. - petit AS et grand MAPQ = alignement avec discordance mais la positdion est la plus probable - mapping efficinency = nombre de reads aligné. - dépend de la longueur des reads, de leur qualité, absence contamination, logiciel, génome de référence +/- librairie - note: clipping dears reads = les extrémitiés qui ne s'alignent pas sont ignées - distribution selon les régions GENCODE - distribution indel - GC biais. Théoriquement chez les humaine, gaussienne autour de 41% - duplicats (préparation échantillion ou 1 cluster amplification) -> les supprimer n'implique pas forcément une augmentation de la précision - 6 coeurs i7 32Gob RAM Résultat: - données simulée en paired-end: meilleur = BBMAP, BWA-MEM, Novoalign, DNASTAR, YARA, Segemehl and TopHat2 - Échantillons : - accuracy (si chaque read a bien été aligné: comment est-il calculé sur données non simulées TODO ???): novoalign, DNASTAR. - Meilleur résultat pour exon mapping (nombre d'exons marqué comme tels par kb) = Segemehl - *Pire résultat pour exon alignement : BWA*. Meilleur = variable selon écdhantillons mais RUM, Segemehl pour WES, novolagin pour WGS - CLC, BWA-MEM, GEM and Magic-BLAST ont le plus grand nombre de reads alignés - clipped reads : bowtie2, esegemehld et tophat2 = peu de clipping sur exome/génome - délétion : distribution augmentée pour génome sur toute la longueur du read pour tous mapper - GC: génome : aucun aligner n'a une distribution romale !! (biais de séquencage). Exome= double pic pour bowtie2, bwa, gema, minimap2, star, subrdea - duplicats : faible pour dna Performances : dépend de la longeur du reads et du nombre de reads - mémoire : milimu = tophat2, bwa, bwa-mem, hisat2, bowtie2, GEM < 10Gb -> utiliser plutôt [cite:@alser2021] pour données brutes (figure trop petite, mauvaise méthodo) Conclusion - single-end = moins de redas mappé mais diminué nombre d'alignement multiples - paired-end = plus de reads mappé, meilleur efficacaté, meilleurs reads uniquué mappé (exome) => compromose efficacicé et qualité - magic-blast = aligne le plus de redas mais peu précise. novoalign et dnastar = meilleur qualité. Segemehl et novoalign pour exon. - le plus rapide = subread puis minimap2. .segemelhl, tophat2 et novoalign = les lpus lents