Évaluation de la qualité des fichiers de séquence FASTQ via FastQC
Introduction
FastQC (1) est un outil qui analyse les fichiers en format FASTQ pour résumer diverses propriétés de qualité, soit de manière textuelle, via un rapport en format texte, soit de manière visuelle via la construction d'un mini-site web contenant divers graphiques résumant la qualité des séquences d'un fichier.
- Pré-requis d'installation:
- Java (installé avec un serveur Impilo)
- PICARD (fourni avec l'application)
- Formats de séquence lus par FastQC:
- FASTQ en tout genre, y compris les fichiers ABI colorspace, en format texte ou compressé par
gzip
; - SAM
- BAM
Protocole
- Pour utiliser FastQC, vous avez deux options: via un interface graphique interactive ou via une commande shell pour exécution dans l'arrière-plan. Dans la plupart des cas, c'est cette dernière utilisation qui sera faite car on analyse la plupart du temps un tas de fichiers
- Pour une utilisation interactive (une fenêtre s'ouvrira pour opérer le logiciel):
# On assume que $PATH pourra trouver... % fastqc
- Il ne vous faudra qu'ouvrir le fichier à analyser via le menu pour démarrer. Si vous voulez sauvegarder le résultat, n'oubliez pas de choisir File > Save report… avant de quitter.
- Pour une utilisation en mode batch:
# On assume que $PATH pourra trouver... % fastqc <mySeqFile1>
- En mode batch et par défaut, FastQC écrira les résultats de l'analyse dans le répertoire contenant le fichier de séquence. Si vous voulez un autre endroit (ce qui est désirable dans la plupart des cas), il faut au préalable créer cet endroit et il vous faudra utiliser un paramètre supplémentaire:
# On assume que $PATH pourra trouver... # -o est aussi acceptable à la place de --outdir % fastqc <mySeqFile1> --outdir <autreSite>
Analyse des résultats
- Les pages suivantes décrivent comment interprété le rapport FastQC:
- Le site de FastQC a de nombreux exemples de fichiers de séquençage plus ou moins satisfaisants provenant de plusieurs plateformes distinctes:
- Bonnes séquences Illumina: remarquer comment les séquences restent globalement de bonne qualité (Q>30) jusqu'à la fin (panneau Per base sequence quality) et que la très grande majorité des séquences à une qualité moyenne sur toute leur longueur Q>30 (panneau Per sequence quality score)
- Mauvaises séquences Illumina: ici, on observe une catastrophe :-[
- Contamination par les adaptateurs: le panneau Per base sequence content montre qu'il y a un fort biais des nucléotides à certaines positions alors que vous vous attendez à observer +/- 0.25 pour chaque nucléotide. Ceci ce confirme dans le rapport Overrepresented sequences où FastQC détecte une forte quantité de séquences d'amorces Illumina.