Ceci est une ancienne révision du document !
Mise en pratique des méthodes d'analyse de l'expression génique grâce aux données utilisées par le package airway: organisation
Introduction
Les projets d'ultra-séquençage (génomique ou transcriptomique) demandent et génèrent un ensemble de fichiers et il est facile de perdre le fil… Il faut avant même de commencer à travailler (bon, d'accord, on a au moins nos fichiers bruts de séquençage ) se faire une organisation logique des fichiers:
- Premièrement, les fichiers comprenant les index nécessaires pour nos outils d'analyse ainsi que les fichiers provenant des sources d'annotation qui ont servis à créer ces index;
- Deuxièmement, les fichiers de séquençage de l'expérience ainsi que tous les fichiers qui découleront des diverses étapes de filtration/alignement/analyse du contrôle de la qualité.
D'un point de vue matériel, il faut avoir évidemment avoir l'espace nécessaire pour accueillir l'un comme l'autre mais également (et évidemment), il faut que le stockage choisi soit visible en lecture ou en lecture/écriture à tous les ordis qui seront utilisé pour faire le travail. Dans une grappe de calcul, on parle d'un système de fichiers partagés sur le réseau comme NFS (plutôt simple à faire, comme sur SuperClafoutis) ou Lustre (plutôt compliqué à faire, comme sur Rorqual). Ce détail est important car lorsque des tâches distribuées sont exécutées, elles devront lire et écrire de manière concurrente dans les mêmes répertoires.
Ok, maintenant, du point de vue logique…