Ceci est une ancienne révision du document !

Mise en pratique des méthodes d'analyse de l'expression génique grâce aux données utilisées par le package airway: obtenir les fichiers de séquence bruts du projet (1)

Introduction

Gestion des données

Il faut maintenant se concentrer sur la méthodologie à employer pour optimiser l'automatisation des étapes. En construisant une hiérarchie unifiée pour les fichiers source, on pourra réutiliser cette hiérarchie dans les étapes de l'analyse. Dans un premier temps, il nous faut obtenir les fichiers source FASTQ bruts, qu'ils proviennent d'une plateforme de séquençage ou bien d'une base de données. Comment les organisés de manière optimale? Dans le cas précis de notre projet, on a diverses lignées cellulaires humaines qui nous servent à observer les changements de l'expression génique selon divers traitements. Il est par conséquent logique d'assembler les fichiers par traitement plutôt que par lignée.

De plus, plusieurs personnes dans un projet pourraient avoir un besoin de lire les informations contenues dans ces fichiers. Il est alors nécessaire de les mettre dans un endroit du système de fichiers accessible à tous mais en les protégeant en modifiant les permissions afin qu'ils soient accessibles en lecture mais ne peuvent être éditer. Un autre point: on ne veut pas que personne d'autre vienne y mettre d'autres fichiers par accident ou autre

Obtention des données

Est-ce que vos fichiers proviennent d'une plateforme de séquençage ou bien d'un entrepôt de données comme Séquence Read Archives? La plupart du temps, ça importe peu car il faudra qu'ils arrivent à votre plateforme via l'Internet. De plus, il faudra télécharger beaucoup de fichiers, jusqu'à 2 par échantillon si il a été séquencé paired-end donc ça fait beaucoup de tâches distinctes de téléchargement… C'est ici que l'automatisation des tâches via un script Python, seul ou en exécution sur une grappe de calcul, sera d'un usage fort utile Nous présenterons deux méthodes: un script pour l'ensemble des tâches de téléchargement ou bien un script qui créera autant de tâches que d'échantillons pour soumettre à une. grappe de calcul.

Pour commencer, il nous faut une liste des fichiers à télécharger à partir d'un serveur distant. Pour notre projet, les auteurs nous disent que les infos se trouvent sur Gene Expression Omnibus sous l'identificateur GSE52778. En inspectant cette page, on voit que les données de séquences brutes se trouvent dans le site Sequence Read Archive avec l'identificateur SRP033351. On y est presque! En allant sur le site de la page de sélection des données du SRA, on fait une recherche avec cet identificateur et on tombe sur la page contenant l'information que nous cherchons!! Dans le panneau Select, on voit deux boutons: Metadata ou bien Accession List; cliquer sur Metadata pour obtenir un fichier CSV plus informatif, SraRunTable.csv, qui nous servira pour la suite. Allez mettre ce fichier dans l'arborescence de votre serveur; par ex., créer un répertoire appelé z.misc.files sous /shares/data/rnaseq/airways

Protocole - Pour commencer

Une idée sur la marche à suivre: nous avons construit les fichiers index sous /shares/data, un répertoire accessible pour tous dans le système de fichiers. alors construisons un nouveau répertoire pour y mettre tous les projets de transcriptomique basés sur le séquençage ài haut débit:

% mkdir /shares/data/rnaseq
% mkdir /shares/data/rnaseq/airway

Nous savons (en lisant le papier associé) que les lignées ont subit l'un des traitements suivant: DMSO comme contrôle, albuterol, dexaméthasone ou albuterol+dexaméthasone. On crée alors une hiérarchie avec cette information:

% cd /shares/data/rnaseq/airway
% mkdir dmso
% mkdir alb
% mkdir dexa
% mkdir alb_dexa
% mkdir z.misc.files

Après les opérations de téléchargement des fichiers, on reviendra retoucher les permissions. En principe, on veut pouvoir voir le contenu des répertoires et lire leur contenu ainsi que lire les fichiers qui s'y trouvent. Comme l'usager est le propriétaire des fichiers, il peut se retirer des permissions d'écriture des répertoires et fichiers pour éviter d'en écraser le contenu et d'y mettre des fichiers pas rapport. Évidemment, il faut voir comment les usagers du groupe d'usagers auquel appartient l'usager créateur et le reste des usagers du système peuvent accéder aux données.
- On y reviendra lors du processus de téléchargement via le scrip de démonstration.

Dans le cas de l'analyse, le simple fait que chacun peut la faire selon ses propres hypothèses, on va plutôt mettre le tout dans notre répertoire $HOME:

# On reste générique car le repertoire peut contenir
# autre chose que des projets de transcriptomique...
% mkdir $HOME/analysis
% mkdir $HOME/analysis/rnaseq
% cp -r /shares/data/rnaseq/airway $HOME/analysis/rnaseq

Plus à venir…