Mise en pratique des méthodes d'analyse de l'expression génique grâce aux données utilisées par le package airway: organisation
Introduction
Les projets d'ultra-séquençage (génomique ou transcriptomique) demandent et génèrent un ensemble de fichiers et il est facile de perdre le fil… Il faut avant même de commencer à travailler (bon, d'accord, on a au moins nos fichiers bruts de séquençage ) se faire une organisation logique des fichiers:
- Premièrement, les fichiers comprenant les index nécessaires pour nos outils d'analyse ainsi que les fichiers provenant des sources d'annotation qui ont servis à créer ces index;
- Deuxièmement, les fichiers de séquençage de l'expérience ainsi que tous les fichiers qui découleront des diverses étapes de filtration/alignement/analyse du contrôle de la qualité.
D'un point de vue matériel, il faut avoir évidemment avoir l'espace nécessaire pour accueillir l'un comme l'autre mais également (et évidemment), il faut que le stockage choisi soit visible en lecture ou en lecture/écriture à tous les ordis qui seront utilisé pour faire le travail. Dans une grappe de calcul, on parle d'un système de fichiers partagés sur le réseau comme NFS (plutôt simple à faire, comme sur SuperClafoutis) ou Lustre (plutôt compliqué à faire, comme sur Rorqual). Ce détail est important car lorsque des tâches distribuées sont exécutées, elles devront lire et écrire de manière concurrente dans les mêmes répertoires.
Ok, maintenant, du point de vue logique… Comme mentionné ci-dessus, un projet de transcriptomique utilisant la techno RNASeq part d'un ensemble de fichiers qui doivent être analysés par des outils qui dépendent d'index qui restent relativement statiques. De plus, ces index sont non seulement exigeants en espace mais aussi exigeant dans leur création; on a un avantage à les créés le moins souvent possible en les partageant pour le groupe et non pour les garder pour soi. Donc, comment planifier notre stockage? Une proposition:
- Les index sont mis à l'extérieur du projet lui-même car ils peuvent être utilisés par plusieurs usagers pour leurs propres projets. Dans la grappe SuperClafoutis, ce répertoire est
/shares/data/indexeset se trouve sur un serveur NFS. - Chaque outil demandant ses propres index, il faudra alors créer une architecture pour chaque outil.
- Comme un projet est un projet parmi possiblement plusieurs autres, on créera un répertoire dans notre espace personnel que nous appellerons
analysis. Évidemment, c'est votre choix mais chercher à rester consistent pour le reste
La suite: création des index pour les outils d'alignement utilisés pour ce tutoriel.