Introduction

Dans la très grande majorité des cas, le travail consistera dans un premier temps à expédier des ARNs extraits suivant divers traitements à un centre de service spécialisé qui procèdera au séquençage à proprement parlé. Suite à ce séquençage, ce centre de service mettra à votre disposition divers fichiers et/ou données quantitatives (par exemple, le nombre de nucléotides séquencés pour chaque librairie, la qualité moyenne, etc.) que vous devez garder quelque part dans un système de fichiers; il vous permettra aussi de télécharger les fichiers de séquences brutes ainsi que les signatures MD5 pour chacun des fichiers de données brutes. Avertissement: cette opération pourrait vous prendre du temps, beaucoup de temps… surtout si votre bande passante est un goulot d'étranglement.

Prenez note : la plupart des méthodes présentées utilisent des données Illumina car ce sont celles avec lesquelles nous avons le plus d'expérience. Si elles ne s'appliquent pas pour d'autres plateformes ou bien demandent des modifications pour fonctionner, svp nous le signaler!

Transcriptomique via RNASeq: acquisition des données brutes

Introduction

Dans la très grande majorité des cas, le travail consistera dans un premier temps à expédier des ARNs extraits suivant divers traitements à un centre de service spécialisé qui procèdera au séquençage à proprement parlé. Suite à ce séquençage, ce centre de service mettra à votre disposition divers fichiers et/ou données quantitatives (par exemple, le nombre de nucléotides séquencés pour chaque librairie, la qualité moyenne, etc.) que vous devez garder quelque part dans un système de fichiers; il vous permettra aussi de télécharger les fichiers de séquences brutes ainsi que les signatures MD5 pour chacun des fichiers de données brutes. Avertissement: cette opération pourrait vous prendre du temps, beaucoup de temps… surtout si votre bande passante est un goulot d'étranglement.

Prenez note : la plupart des méthodes présentées utilisent des données Illumina car ce sont celles avec lesquelles nous avons le plus d'expérience. Si elles ne s'appliquent pas pour d'autres plateformes ou bien demandent des modifications pour fonctionner, svp nous le signaler!

Procédures

Par exemple, créer un répertoire mon_projet dans lequel vous créerez un répertoire 0.seq_brutes; dirigez vous vers ce répertoire. Créez deux autres répertoires dans celui-ci: 0a.seq_brutes_fichiers et 0b.seq_brutes_qc. Téléchargez vos données sous 0a.seq_brutes_fichiers selon les instructions de votre plateforme de service; une fois le téléchargement terminé, si nécessaire, créez les répertoires nécessaires pour distribuer vos fichiers bruts selon votre design expérimental (par exemple: maConditionA_repetition_1).

À la suite du téléchargement, une bonne pratique devrait toujours être de vérifier les signatures MD5 avant téléchargement (données par le centre de service, idéalement sous la forme d'un fichier texte) et les signatures après téléchargement, sur votre système de fichiers local. Ceci permet de vérifier l'intégrité des données transférées: une erreur de transfert génèrera forcément un fichier endommagé avec une signature MD5 différente. Il est mieux de faire ceci le plus en amont possible avant de se rendre compte de cela plus tard lorsque des erreurs se présenteront…

Selon la nature de vos fichiers de séquences brutes, vous avez deux recours possibles:
- Fichiers compressés écrit en format FASTQ: Dans un tel cas, si vos fichiers sont compressés via tar/gzip, il n'est pas nécessaire de les décompresser et en fait vous ne devriez pas le faire. Le format FASTQ est un format texte qui se compresse relativement bien: il n'est pas rare de voir un fichier FASTQ compressé prendre de un tiers à un dixième de l'espace du fichier non-compressé. On gagne donc beaucoup d'espace en ne les décompressant pas. De plus, la grande majorité des outils qui seront utilisé en aval peuvent lire le format tar/gzip (comme FastQC, Tophat 2 et STAR).
- Fichiers compressés écrit en format BAM: Dans un tel cas, les fichiers sont dans un format binaire (BAM) qui, par définition, est un format compressé. Le hic est que pour obtenir ces fichiers, le centre de service a déjà effectué un alignement, probablement pas fait selon les paramètres que vous utiliseriez ou bien avec une version distincte d'un génome de référence et des annotations associées. Il faudra alors procéder à une transformation BAM → FASTQ pour pouvoir refaire l'alignement, en utilisant des outils tels samtools et bedtools ou Picard.
  - Primo, il faut s'assurer d'avoir les séquences ordonnancées selon leur noms dans le fichier BAM via la fonction sort de samtools;
  - Secundo, on utilise la fonction bamtofastq de l'utilitaire bedtools pour faire la transformation BAM → FASTQ; si on a des séquences paired-end, il faudra s'assurer d'utiliser le paramètre -fq2:

% samtools sort -n myOriginal.bam > mySortedOriginal.bam
% bedtools bamtofastq -i mySortedOriginal.bam -fq mySortedOriginal.R1.fastq -fq2 mySortedOriginal.R2.fastq

Prochaine étape: évaluation de la qualité des séquences brutes obtenues
- Pas strictement réservé au RNASeq, applicable à tout projet de séquençage HT