Il est quasi-impossible de tout aligner: beaucoup de vos séquences proviendront de séquences répétitives, donc difficiles à placer ou bien, si vous utilisez un séquençage paired-end, vos deux lectures associées ne seront pas placé ensembles… Il vous faudra donc retirer tout ça pour éviter de polluer notre ensemble de données pour l'expression différentielle.
Cette recette est inspirée de trois pages très intéressantes:
view
de Samtools:-f 0x2
nous permet de garder les séquences qui ont le FLAG 0x2 paramètré dans la 2ème colonne (-f 2
fonctionnera aussi!);-q int
nous permet de garder les séquences qui ont une qualité d'alignement supérieure ou égale à une certaine valeur seuil int
.* Donc pour un fichier mySequences.bam, on utilisera Samtools de 2 manières possibles:
// Première méthode % samtools view -f 0x2 -q 50 -b -o mySequences_properly_paired_unique_mapping.bam mySequences.bam
// Deuxième méthode % samtools view -f 0x2 -q 50 -b mySequences.bam > mySequences_properly_paired_unique_mapping.bam