Différences
Ci-dessous, les différences entre deux révisions de la page.
Prochaine révision | Révision précédente | ||
fr:impilopedia:genex:rnaseq:align:bam_qual_analysis [2016/12/07 09:55] – créée foisys | fr:impilopedia:genex:rnaseq:align:bam_qual_analysis [2021/05/29 15:35] (Version actuelle) – modification externe 127.0.0.1 | ||
---|---|---|---|
Ligne 1: | Ligne 1: | ||
+ | ====== Comment trouver les valeurs de qualité et en exploiter l' | ||
+ | ===== Introduction ===== | ||
+ | |||
+ | Comme mentionné ailleurs, les aligneurs de séquence pour RNASeq ont une [[: | ||
+ | |||
+ | Pour référence: | ||
+ | |||
+ | ^ Type d' | ||
+ | ^ HISAT2 | ||
+ | ^ Tophat2 | ||
+ | ^ STAR | 255 | | ||
+ | |||
+ | ===== Protocole ===== | ||
+ | |||
+ | * En utilisant un fichier SAM ou BAM lu par '' | ||
+ | <code bash> | ||
+ | % samtools view un_fichier_sequences.bam | cut -f5 > un_fichier_sequences_qual.txt | ||
+ | </ | ||
+ | |||
+ | * Ce fichier aura autant de lignes que de séquences, avec une seule valeur sur chaque ligne. Le reste de la magie se fait via '' | ||
+ | <code rsplus> | ||
+ | > data.r< | ||
+ | </ | ||
+ | |||
+ | * On doit transformer cet objet en liste: | ||
+ | <code rsplus> | ||
+ | > data.l< | ||
+ | </ | ||
+ | |||
+ | * On applique la magie de la méthode '' | ||
+ | |||
+ | <code rsplus> | ||
+ | > hist(data.l, | ||
+ | </ | ||
+ | |||
+ | * On remarque que la très grande majorité des lectures se retrouve dans la barre des 50 (exemple avec Tophat2): | ||
+ | |||
+ | {{ : | ||
+ | |||
+ | * On peut extraire des données descriptives de cet histogramme en interceptant les infos silencieusement créées par la méthode: | ||
+ | <code rsplus> | ||
+ | > hist.d< | ||
+ | > hist.d | ||
+ | $breaks | ||
+ | | ||
+ | [24] 46 48 50 | ||
+ | |||
+ | $counts | ||
+ | | ||
+ | | ||
+ | [15] 0 0 0 0 0 0 0 | ||
+ | [22] 0 0 0 34913044 | ||
+ | |||
+ | $density | ||
+ | [1] 0.01597999 0.01448485 0.00000000 0.00000000 0.00000000 0.00000000 | ||
+ | [7] 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 | ||
+ | [13] 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 | ||
+ | [19] 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 | ||
+ | [25] 0.46953516 | ||
+ | |||
+ | $mids | ||
+ | | ||
+ | [24] 47 49 | ||
+ | |||
+ | $xname | ||
+ | [1] " | ||
+ | |||
+ | $equidist | ||
+ | [1] TRUE | ||
+ | |||
+ | attr(," | ||
+ | [1] " | ||
+ | </ | ||
+ | |||
+ | * On peut remarquer qu'on observe que trois classes contenant des valeurs autre que 0: 0-1, 2-3 et 49-50. De plus, il est assez évident que le maximum est 50 ;-) Donc, c'est cette valeur à prendre pour filtrer! |