Traductions de cette page:
Piste : salmon_1101 biomart_biomart

Explorer les données d'ENSEMBL via la librairie biomaRt

Explorer les données d'ENSEMBL via la librairie biomaRt

Introduction

  • Plus à venir…

Procédure

  • Dans R, chargeons les libraries:

# Si nécessaire, installer le package biomaRt:
> library("BiocManager")
> BiocManager::install("biomaRt")
# Chargeons la librairie
> library(biomaRt)

  • Créons une instance de la classe Mart:

> ensembl<-useMart("ensembl",dataset="hsapiens_gene_ensembl")

  • La recherche des informations contenu dans Ensemble via biomaRt déprendra évidemment de certains facteurs:
    • Quelles informations voulez-vous obtenir?
    • Quelle information servira de filtre?
    • Quelle valeur pour cette information sera utilisé comme critère de recherche?
  • Pour obtenir les champs de données qu'il est possible d'obtenir:

> listAttributes(ensembl)

  • Pour savoir les champs de recherche possibles:

> listFilters(ensembl)

  • Un exemple pratico-pratique: pour savoir quels gènes se retrouvent dans le noeud GO de la classe “cellular component” pour les replis cellulaires (ruffles). Le champs attributes prend comme valeurs les colonnes de données que l'on veut obtenir.

# Collectons les infos dans un objet:
> go.Genes<-getBM(attributes=c('hgnc_symbol', 'entrezgene_id', 'go_id'),
                 filters = 'go', 
                 values = 'GO:0001726', 
                 mart = ensembl)
# Et voici votre liste de gènes dans cette entrée avec tous les 
# sous-GO auxquels ils appartiennent dans les trois classes GO (BP,CC et MF) ;-)
> goGenes
# Et voici la liste des gènes sans autre détail ;-) Oh, surprise, CTTN y est...
> unique(goGenes$hgnc_symbol)

  • Il faut être attentif aux arguments utilisés comme filtres car les données retournées par la requête ne sont probablement pas ceux attendues… Par exemple:
    • Si on utilise go, les résultats retournés correspondront aux gènes qui sont uniquement retrouvés dans le noeud spécifié. De plus, on retrouve tous les autres noeuds où se placent ces gènes dans les trois classes GO (BP, CC et MF).
    • Si on utilise go_parent_term, on retrouvera les mêmes gènes avec en plus tous les gènes qui sont dans des noeuds reliés au noeud spécifié. Cependant, seulement l'information du ou des noeud(s) subalterne(s) sera retourné dans l'objet.
fr/impilopedia/datasource/ensembl/biomart_biomart.txt · Dernière modification : 2021/05/29 15:35 de 127.0.0.1
CC Attribution-Share Alike 4.0 International Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC Attribution-Share Alike 4.0 International