Différences

Ci-dessous, les différences entre deux révisions de la page.

Lien vers cette vue comparative

Les deux révisions précédentesRévision précédente
Prochaine révision
Révision précédente
fr:impilopedia:ht_sequencing:analysis_pipeline:qc_sequences:fastqc_usage [2015/11/05 13:21] – [Méthodes] foisysfr:impilopedia:ht_sequencing:analysis_pipeline:qc_sequences:fastqc_usage [2021/05/29 15:35] (Version actuelle) – modification externe 127.0.0.1
Ligne 1: Ligne 1:
 +====== Évaluation de la qualité des fichiers de séquence FASTQ via FastQC ======
  
 +===== Introduction =====
 +
 +FastQC [(http://www.bioinformatics.babraham.ac.uk/projects/fastqc)] est un outil qui analyse les fichiers en format FASTQ pour résumer diverses propriétés de qualité, soit de manière textuelle, via un rapport en format texte, soit de manière visuelle via la construction d'un mini-site web contenant divers graphiques résumant la qualité des séquences d'un fichier.
 +
 +  * Pré-requis d'installation:
 +    * Java (installé avec un serveur Impilo)
 +    * PICARD (fourni avec l'application)
 +
 +  * Formats de séquence lus par FastQC:
 +    * FASTQ en tout genre, y compris les fichiers ABI //colorspace//, en format texte ou compressé par ''gzip'';
 +    * SAM
 +    * BAM
 +===== Protocole =====
 +
 +  * Pour utiliser FastQC, vous avez deux options: via un interface graphique interactive ou via une commande //shell// pour exécution dans l'arrière-plan. Dans la plupart des cas, c'est cette dernière utilisation qui sera faite car on analyse la plupart du temps un tas de fichiers ;-)
 +  * Pour une utilisation interactive (une fenêtre s'ouvrira pour opérer le logiciel):
 +<code bash>
 +# On assume que $PATH pourra trouver...
 +% fastqc
 +</code>
 +  * Il ne vous faudra qu'ouvrir le fichier à analyser via le menu pour démarrer. Si vous voulez sauvegarder le résultat, n'oubliez pas de choisir //File > Save report...// avant de quitter.
 +  * Pour une utilisation en mode //batch//:
 +<code bash>
 +# On assume que $PATH pourra trouver...
 +% fastqc <mySeqFile1> 
 +</code>
 +  * En mode //batch// et par défaut, FastQC écrira les résultats de l'analyse dans le répertoire contenant le fichier de séquence. Si vous voulez un autre endroit (ce qui est désirable dans la plupart des cas), **il faut au préalable créer cet endroit** et il vous faudra utiliser un paramètre supplémentaire:
 +<code bash>
 +# On assume que $PATH pourra trouver...
 +# -o est aussi acceptable à la place de --outdir
 +% fastqc <mySeqFile1> --outdir <autreSite>
 +</code>
 +
 +===== Analyse des résultats =====
 +
 +  * Les pages suivantes décrivent comment interprété le rapport FastQC:
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/1%20Basic%20Statistics.html|Basic statistics]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/2%20Per%20Base%20Sequence%20Quality.html|Per Base Sequence Quality]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/3%20Per%20Sequence%20Quality%20Scores.html|Per Sequence Quality Scores]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/4%20Per%20Base%20Sequence%20Content.html|Per Base Sequence Content]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/5%20Per%20Sequence%20GC%20Content.html|Per Sequence GC Content]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/6%20Per%20Base%20N%20Content.html|Per Base N Content]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/7%20Sequence%20Length%20Distribution.html|Sequence Length Distribution]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/8%20Duplicate%20Sequences.html|Duplicate Sequences]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/9%20Overrepresented%20Sequences.html|Overrepresented Sequences]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/10%20Adapter%20Content.html|Adapter Content]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/11%20Kmer%20Content.html|Kmer Content]]
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/Help/3%20Analysis%20Modules/12%20Per%20Tile%20Sequence%20Quality.html|Per Tile Sequence Quality]]
 +
 +  * Le site de FastQC a de nombreux exemples de fichiers de séquençage plus ou moins satisfaisants provenant de plusieurs plateformes distinctes:
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/good_sequence_short_fastqc.html|Bonnes séquences Illumina]]: remarquer comment les séquences restent globalement de bonne qualité (Q>30)  jusqu'à la fin (panneau //Per base sequence quality//) et que la très grande majorité des séquences à une qualité moyenne sur toute leur longueur Q>30 (panneau //Per sequence quality score//)
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/bad_sequence_fastqc.html|Mauvaises séquences Illumina]]: ici, on observe une catastrophe :-[
 +    * [[http://www.bioinformatics.babraham.ac.uk/projects/fastqc/RNA-Seq_fastqc.html|Contamination par les adaptateurs]]: le panneau //Per base sequence content// montre qu'il y a un fort biais des nucléotides à certaines positions alors que vous vous attendez à observer +/- 0.25 pour chaque nucléotide. Ceci ce confirme dans le rapport //Overrepresented sequences// où FastQC détecte une forte quantité de séquences d'amorces Illumina.
 +===== Références =====
 +<refnotes>
 +notes-separator : none
 +</refnotes>