Différences
Ci-dessous, les différences entre deux révisions de la page.
| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente | ||
| fr:impilopedia:genex:rnaseq:align:bam_qual_analysis [2017/02/07 10:10] – [Introduction] foisys | fr:impilopedia:genex:rnaseq:align:bam_qual_analysis [2021/05/29 15:35] (Version actuelle) – modification externe 127.0.0.1 | ||
|---|---|---|---|
| Ligne 1: | Ligne 1: | ||
| + | ====== Comment trouver les valeurs de qualité et en exploiter l' | ||
| + | ===== Introduction ===== | ||
| + | |||
| + | Comme mentionné ailleurs, les aligneurs de séquence pour RNASeq ont une [[: | ||
| + | |||
| + | Pour référence: | ||
| + | |||
| + | ^  Type d' | ||
| + | ^  HISAT2  | ||
| + | ^  Tophat2  | ||
| + | ^ STAR | 255 | | ||
| + | |||
| + | ===== Protocole ===== | ||
| + | |||
| + |   * En utilisant un fichier SAM ou BAM lu par '' | ||
| + | <code bash> | ||
| + | % samtools view un_fichier_sequences.bam | cut -f5 > un_fichier_sequences_qual.txt | ||
| + | </ | ||
| + | |||
| + |   * Ce fichier aura autant de lignes que de séquences, avec une seule valeur sur chaque ligne. Le reste de la magie se fait via '' | ||
| + | <code rsplus> | ||
| + | > data.r< | ||
| + | </ | ||
| + | |||
| + | * On doit transformer cet objet en liste: | ||
| + | <code rsplus> | ||
| + | > data.l< | ||
| + | </ | ||
| + | |||
| + |   * On applique la magie de la méthode '' | ||
| + | |||
| + | <code rsplus> | ||
| + | > hist(data.l, | ||
| + | </ | ||
| + | |||
| + | * On remarque que la très grande majorité des lectures se retrouve dans la barre des 50 (exemple avec Tophat2): | ||
| + | |||
| + | {{ : | ||
| + | |||
| + | * On peut extraire des données descriptives de cet histogramme en interceptant les infos silencieusement créées par la méthode: | ||
| + | <code rsplus> | ||
| + | > hist.d< | ||
| + | > hist.d | ||
| + | $breaks | ||
| + |   | ||
| + | [24] 46 48 50 | ||
| + | |||
| + | $counts | ||
| + |   | ||
| + |   | ||
| + | [15] 0 0 0 0 0 0 0 | ||
| + | [22] 0 0 0 34913044 | ||
| + | |||
| + | $density | ||
| + | [1] 0.01597999 0.01448485 0.00000000 0.00000000 0.00000000 0.00000000 | ||
| + | [7] 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 | ||
| + | [13] 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 | ||
| + | [19] 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 0.00000000 | ||
| + | [25] 0.46953516 | ||
| + | |||
| + | $mids | ||
| + |   | ||
| + | [24] 47 49 | ||
| + | |||
| + | $xname | ||
| + | [1] " | ||
| + | |||
| + | $equidist | ||
| + | [1] TRUE | ||
| + | |||
| + | attr(," | ||
| + | [1] " | ||
| + | </ | ||
| + | |||
| + | * On peut remarquer qu'on observe que trois classes contenant des valeurs autre que 0: 0-1, 2-3 et 49-50. De plus, il est assez évident que le maximum est 50 ;-) Donc, c'est cette valeur à prendre pour filtrer! | ||