Les projets d'ultra-séquençage (génomique ou transcriptomique) demandent et génèrent un ensemble de fichiers et il est facile de perdre le fil… Il faut avant même de commencer à travailler (bon, d'accord, on a au moins nos fichiers bruts de séquençage ) se faire une organisation logique des fichiers:
D'un point de vue matériel, il faut avoir évidemment avoir l'espace nécessaire pour accueillir l'un comme l'autre mais également (et évidemment), il faut que le stockage choisi soit visible en lecture ou en lecture/écriture à tous les ordis qui seront utilisé pour faire le travail. Dans une grappe de calcul, on parle d'un système de fichiers partagés sur le réseau comme NFS (plutôt simple à faire, comme sur SuperClafoutis) ou Lustre (plutôt compliqué à faire, comme sur Rorqual). Ce détail est important car lorsque des tâches distribuées sont exécutées, elles devront lire et écrire de manière concurrente dans les mêmes répertoires.
Ok, maintenant, du point de vue logique… Comme mentionné ci-dessus, un projet de transcriptomique utilisant la techno RNASeq part d'un ensemble de fichiers qui doivent être analysés par des outils qui dépendent d'index qui restent relativement statiques. De plus, ces index sont non seulement exigeants en espace mais aussi exigeant dans leur création; on a un avantage à les créés le moins souvent possible en les partageant pour le groupe et non pour les garder pour soi. Donc, comment planifier notre stockage? Une proposition:
/shares/data/indexes et se trouve sur un serveur NFS. analysis. Évidemment, c'est votre choix mais chercher à rester consistent pour le reste La suite: création des index pour les outils d'alignement utilisés pour ce tutoriel.