Traductions de cette page:
Piste : filter_bad_reads

Filtrage des séquences brutes

Filtrage des séquences brutes

Introduction

Il est nécessaire de procéder au filtrage des séquences brutes obtenues afin de :

  • Retirer les séquences qui sont globalement sous un certain seuil de qualité;
  • Élaguer celles qui ont de bonnes portions mais qui se terminent avec des portions de moins bonne qualité;
  • Retirer les séquences contaminantes, insérées par le processus de création des librairies.

Pourquoi? Parce que le prochain processus en aval, l'alignement, ne donnera de bons résultats que si les séquences douteuses sont éliminées. Des erreurs de séquençage diminueront la qualité des alignements en plus de potentiellement insérer des données érronées dans l'alignement (penser recherche de variations génétiques). De plus, des séquences d'adaptateurs pourraient rendre impossible des alignements de qualité et diminueraient le résultat net de couverture de votre séquençage.

Méthodes

Il existe une panoplie d'outils pour faire cette tâche ;-) Cependant, il faut garder en tête le genre de données que l'on donnera à “manger” à chacune. Par exemple, si vous avez des données paired-end, il est nécessaire d'utiliser un outil qui saura quoi faire avec: si vous retirez une séquence dans un des deux fichiers (disons mes_sequence_R1.fastq), il faut aussi retirer sa contre-partie dans le fichier mes_sequence_R1.fastq.

Protocoles

fr/impilopedia/ht_sequencing/analysis_pipeline/filter_reads/filter_bad_reads.txt · Dernière modification : 2021/05/29 15:35 de 127.0.0.1
CC Attribution-Share Alike 4.0 International Sauf mention contraire, le contenu de ce wiki est placé sous les termes de la licence suivante : CC Attribution-Share Alike 4.0 International