R/Bioconductor: Utilisation de la librairie arrayQualityMetrics() pour les données Affymetrix
Introduction
La librairie arraQualityMetrics (1,2) est vraiment l'über-outil par excellence et celui qui devrait à terme remplacer presque tous les autres. Comprenant les méthodes incluses dans simpleaffy et affQCReport, il en inclut d'autre tel que l'analyse par composante principale et l'identification des puces hors-normes (outliers). Comme il est aussi possible de travailler avec des données qui proviennent d'illumina ou de puces à 2 couleurs, apprendre à l'utiliser vous donne un outil multi-plateforme.
Procédure
- Placez vous à la racine où se trouve vos fichiers .CEL comme décrit ici.
- Charger la librairie
arrayQualityMetrics. Si vous voulez créer votre objectAffyBatchavec la fonctionread.affy(), il vous faudra aussi chargersimpleaffy:
R> library(arrayQualityMetrics) # optionnel... R> library(simpleaffy)
arrayQualityMetricspeut utiliser les informations phénotypiques créées via la méthoderead.affy(covdesc=“covdesc_fichier.txt”)ou la méthodeReadAffy(phenoData=“covdesc2_fichier.txt”)tel que décrit ici.- Il faut ensuite donner à manger la structure de données à
arrayQualityMetrics:
# imaginons que c'est r.data # Le parametre grouprep n'est plus # nécessaire avec intgroup R>arrayQualityMetrics( + expressionset=r.data, + outdir="../la_bas", + do.logtransform=TRUE, + intgroup="MesClasses", + spatial=FALSE)
- La commande va prendre un certain temps (!!) alors soyez patient… En résumé, elle fait la chose suivante:
- On utilise l'objet
r.data; - La méthode écrira ses résultats dans le répertoire
../la_bas; - Les graphes sont construits avec une échelle logarithmique;
- Les identificateurs sont dans la colonne
MesClassesde mon fichiercovdesc_fichier.txt; - J'aimerais que les résultats soient regroupés selon les classes définies par
MesClasses; - Je ne veux pas de calcul des représentations spatiales des signaux d'intensité.
- Pourquoi je ne veux pas de représentation spatiale?
- Parce que c'est extrêmement long à calculer;
- Parce que ça prends énormément de ressources (pire avec certaines puces très chargées ou bien un grand nombre de puces);
- Le fichier PDF obtenu est énorme et très difficile à lire;
- On peux obtenir une information équivalente avec les images des résiduels de
affyPLM().
La librarie est très flexible est permet de n'utiliser que certaines de ces fonctions. Voir la documentation pour les marches à suivre.
Références
2)
Kaufmann, A. & Huber,W., 2010. Microarray data quality control improves the detection of differentially expressed genes. Genomics, 95, pp.138 - 142.