R/Bioconductor: Utilisation de la librairie arrayQualityMetrics() pour les données Affymetrix
Introduction
La librairie arraQualityMetrics
(1,2) est vraiment l'über-outil par excellence et celui qui devrait à terme remplacer presque tous les autres. Comprenant les méthodes incluses dans simpleaffy
et affQCReport
, il en inclut d'autre tel que l'analyse par composante principale et l'identification des puces hors-normes (outliers). Comme il est aussi possible de travailler avec des données qui proviennent d'illumina ou de puces à 2 couleurs, apprendre à l'utiliser vous donne un outil multi-plateforme.
Procédure
- Placez vous à la racine où se trouve vos fichiers .CEL comme décrit ici.
- Charger la librairie
arrayQualityMetrics
. Si vous voulez créer votre objectAffyBatch
avec la fonctionread.affy()
, il vous faudra aussi chargersimpleaffy
:
R> library(arrayQualityMetrics) # optionnel... R> library(simpleaffy)
arrayQualityMetrics
peut utiliser les informations phénotypiques créées via la méthoderead.affy(covdesc=“covdesc_fichier.txt”)
ou la méthodeReadAffy(phenoData=“covdesc2_fichier.txt”)
tel que décrit ici.- Il faut ensuite donner à manger la structure de données à
arrayQualityMetrics
:
# imaginons que c'est r.data # Le parametre grouprep n'est plus # nécessaire avec intgroup R>arrayQualityMetrics( + expressionset=r.data, + outdir="../la_bas", + do.logtransform=TRUE, + intgroup="MesClasses", + spatial=FALSE)
- La commande va prendre un certain temps (!!) alors soyez patient… En résumé, elle fait la chose suivante:
- On utilise l'objet
r.data
; - La méthode écrira ses résultats dans le répertoire
../la_bas
; - Les graphes sont construits avec une échelle logarithmique;
- Les identificateurs sont dans la colonne
MesClasses
de mon fichiercovdesc_fichier.txt
; - J'aimerais que les résultats soient regroupés selon les classes définies par
MesClasses
; - Je ne veux pas de calcul des représentations spatiales des signaux d'intensité.
- Pourquoi je ne veux pas de représentation spatiale?
- Parce que c'est extrêmement long à calculer;
- Parce que ça prends énormément de ressources (pire avec certaines puces très chargées ou bien un grand nombre de puces);
- Le fichier PDF obtenu est énorme et très difficile à lire;
- On peux obtenir une information équivalente avec les images des résiduels de
affyPLM()
.
La librarie est très flexible est permet de n'utiliser que certaines de ces fonctions. Voir la documentation pour les marches à suivre.
Références
2)
Kaufmann, A. & Huber,W., 2010. Microarray data quality control improves the detection of differentially expressed genes. Genomics, 95, pp.138 - 142.