Il est toujours nécessaire de filtrer les ensembles de données obtenus suivant le processus de normalisation. Pourquoi? Parce que nous allons utiliser des tests statistiques sur chacune des sondes contenues sur une puce (quel que soit sa nature), nous devrons vivre avec les conséquences de ces hypothèses multiples: un plus ou moins grand nombre de gènes seront déclarés ayant un expression différentiel alors qu'ils ne le sont pas. La meilleure manière de faire face est de diminuer le plus possible le nombre d'hypothèses à tester en retirant le plus grand nombre de gènes n'ayant pas de pertinence pour l'expérimentateur.
Comment faire ce filtrage? On peut voir le problème de deux manières différentes:
Ce filtrage s'applique aux données de l'expérience même. Comme une puce contient toute l'information d'un transcriptome donné, il en découle deux observations:
Donc, il faut filtrer basé sur ses deux paramètres.
mas5calls()
de la classe affy
pa.calls()
de la classe panp
. Attention! Ne peut être utilisé que sur les puces U133B et U133 Plus v.2