Table des matières

Analyse de l'expression génique: aspects techniques et méthodologies

Introduction

À une certaine époque, l'étude de l'expression des gènes se limitait à l'isolement des ARNm, la séparation sur gel avec transfert sur membrane (le bon vieux Northern Blot ) et l'hybridation avec une sonde radio-active spécifique pour un gène. Cette approche avait plusieurs limitations:

Les techniques d'hybridation sur lame, apparues au début des années 90, ont changé la situation: on pouvait maintenant hybridé sur une multitude de sondes différentes, un même échantillon d'ARNm. Comme chaque lame est identique à toute les autres, il est alors possible d'utiliser un nombre illimité (enfin presque: la seule limite est le porte-feuille du labo:-)) d'échantillons. Comme l'information obtenue de chaque lame est numérique (intensité lumineuse), on peut alors utiliser des outils informatiques afin d'en faire l'analyse.

Plateformes

Design expérimental

Analyse des données d'expression génique

Introduction

L'analyse des données d'expression peut se faire de deux manières:

De notre expérience en enseignement, nous avons constaté qu'il existe une place pour chacun: si l'approche GUI permet un apprentissage rapide, l'approche CLI est plus puissante et plus flexible. Par conséquent, nous avons développé une série de tutoriels pour chacune de ces deux approches.

Si vous n'utilisez pas un serveur Impilo, vous devez avoir installé les outils suivants:

Les différentes étapes en micropuces

Les différentes étapes en RNA-Seq

Gestion des données et bases de données publiques en expression génique

MGED et la standardisation des données

Historique

Avec les expériences de puces à ADN, les chercheurs ont été confrontés, comme pour le séquençage en son temps, à une masse de données d'une complexité telle, qu'ils n'étaient ni capables de les stocker ni de les analyser efficacement. Lorsqu'ils avaient une seule expérience, ils pouvaient réussir à avoir l'ensemble des données dans un tableur mais le problème de leur analyse n'était pas résolu pour autant. De plus, les chercheurs ont rapidement constaté que ces expériences étaient très peu reproductibles et donc nécessitaient des nouvelles méthodes d'analyses statistiques. C'est dans ce contexte que le groupe MGED a vu le jour afin de définir des formats et des méthodologies pour le stockage et l'analyse de ces expériences. Il s'est imposé comme une référence face aux initiatives individuelles qui émergeaient alors (1).

Il faut noter également que MGED avait pour ambition de servir à la fois aux bio-informaticiens et aux biologistes. MGED fournissait aux bio-informaticiens des spécifications très informatiques leur permettant de développer leurs outils maison. Mais, MGED voulait aussi aider les biologistes, dont bon nombre n'avaient pas de bio-informaticiens pour les aider, en leur fournissant des recommendations pour le type de données à conserver et leur analyse.

Les groupes de travail MGED

Le groupe MGED (Microarray Gene Expression Data Society) s'est mis en place afin de définir des standards permettant (en théorie) de stocker et d'échanger les informations sur les expériences de puce à ADN (micro-, macro-array, Affymetrix … ) nécessaires et suffisantes pour pouvoir les analyser sans ambiguités et les reproduire .

Pour atteindre cet objectif général quatre groupes de travail ont été constitués:

MIAME: Minimum Information About Microarray Experiments

MIAME définit le minimum d'information à fournir sur les expérience afin de pouvoir les analyser sans ambiguité et les reproduire. Les informations requises sont présentées sous la forme d'une liste, très simple. Il n'y a pas d'exigeance concernant le format des donné et l'ontologie, juste des recommendations. MIAME a très vite été adopté par la communauté du fait de sa simplicité, mais il ne résout pas le problème du stockage et de la standardisation des données.

MAGE: Microarray Gene Expression

Le groupe de travail MAGE est divisé en 2 sous-groupes: MAGE-OM pour la définition d'un modele objet, et MAGE-ML, dérivé du précédent, spécification XML pour l'échange de données. Les deux schémas sont extrèment complèxes à comprendre (beaucoup de packages, de classes, de champs), difficiles à implémenter. Ces formats ont eu peu de succès (peut-etre car ils sont arrivés “trop tard”, et sont très complèxes) mais ont été adopté à son origine par un acteur majeur dans le domaine: BASE. Un nouveau format plus simple a ensuite été défini comme alternative à MAGE-ML : MAGE-tab. Moins puissant que le format XML, MAGE-TAB a cependant de nombreux atouts: c'est un format tabulé facile à comprendre, facile à comprendre et permettant simplement de créer des fichiers dans un tableur.

Ontology

L'ontologie recense les termes d'un domaine, en donne une définition et spécifie les relations entre eux. Ce groupe permet d'unifier le vocabulaire utilisé pour un domaine ou biologistes, bio-informaticiens, informaticiens et statisticiens se cotoient. Cependant, le résultat est un jargon, assez obscur. Ex: “reporter” à la place de “probe”, “experimental factor” à ne pas confondre avec une condition expériementale, “composite sequence” pour les gènes … Utilisée dans BASE, il est nécessaire de s'y référer pour comprendre les intitulés des formulaires.

Transformation

Les résultats bruts des expériences de puces à ADN, des intensités pour chaque spot, sont le résultat de l'expression du gène correspondant plus une somme de bruits d'origines diverses: biologiques (d'un jour à l'autre une cellule peut se comporter différement) et expérimentales (liées à la technique: synthèse cDNA, marquage, hybridation, expérimentateur différent). Ces expériences sont difficiles à normaliser et difficiles à analyser. Elles nécessitent une méthodologie statistique adaptée. Ce groupe de travail, qui n'est plus actif, définissait les bonnes pratiques pour l'analyse. Des acteurs clés ont aussi contribué au développement du célèbre package R d'analyse statistiques: Bioconductor.

Une nécessité pour publier: être "MIAME-compliant" et stocker ses données dans une base de données publique

Lettre ouverte du groupe MGED http://www.ncbi.nlm.nih.gov/pmc/articles/PMC514887/

Le groupe MGED a sensibilisé la communauté sur la nécessité de rendre accessibles les données utilisées pour une publication. De nombreux journaux obligent maintenant les authors à déposer leur expérience dans une base de données publiques (GEO ou ArrayExpress) ou bien dans une base de donnés “maison” (ex: SMD).

Les bases de données internationales

Parallèlement à la création de MGED, trois bases de données on vu le jour avec pour ambition de servir de référence pour le stockage des expériences de puces à ADN : GEO au NCBI en Amérique , ArrayExpress à l'EBI en Europe et Cibex au Japon (aujourd'hui fermée). Ces bases devaient jouer le même role pour les données transcriptomiques que genbank ou l'EMBL pour les séquences génomiques. Autrefois indépendantes, ces bases ont maintenant mis en place une synchronisation de leurs données.

Références

(1) :ref:brazma_a_2000Brazma, A., Robinson A., Cameron G. & Ashburner, M., 2000. One-stop shop for microarray data. Nature, 403, pp.699-700.