| Les deux révisions précédentesRévision précédenteProchaine révision | Révision précédente |
| fr:impilopedia:genex:rnaseq:airway_project:index_creation_main [2026/02/18 15:06] – [Téléchargement des fichiers d'annotation] foisys | fr:impilopedia:genex:rnaseq:airway_project:index_creation_main [2026/02/18 16:05] (Version actuelle) – [Création des index : usage de scripts pour SLURM] foisys |
|---|
| |
| * HISAT2 construit une série de fichiers qui constituera l'index servant à chercher le meilleur alignement pour chaque séquence sur un génome de référence. Il profite des informations sur la position des exons et des sites d'épissage contenus dans un fichier d'annotations en format GTF et, dans le cas de H. sapiens, il peut aussi utiliser un fichier contenant les infos des variations génétiques, soit en format VCF ou bien en provenance de UCSC avec son format particulier. Si ces fichiers sont disponibles (et ils le sont dans les archives publiques), on utilise des scripts écrit en Python pour créer des fichiers intermédiaires qui seront utiliser par l'utilitaire ''hisat2-build'' pour construire les fichiers nécessaires. | * HISAT2 construit une série de fichiers qui constituera l'index servant à chercher le meilleur alignement pour chaque séquence sur un génome de référence. Il profite des informations sur la position des exons et des sites d'épissage contenus dans un fichier d'annotations en format GTF et, dans le cas de H. sapiens, il peut aussi utiliser un fichier contenant les infos des variations génétiques, soit en format VCF ou bien en provenance de UCSC avec son format particulier. Si ces fichiers sont disponibles (et ils le sont dans les archives publiques), on utilise des scripts écrit en Python pour créer des fichiers intermédiaires qui seront utiliser par l'utilitaire ''hisat2-build'' pour construire les fichiers nécessaires. |
| | |
| * Pour commencer, on passe par les scripts Python pour la création des fichiers intermédaires: | * Pour commencer, on passe par les scripts Python pour la création des fichiers intermédaires: |
| <sxh bash> | <sxh bash> |
| % | # On crée l'arborescence nécessaire sous /shares/data |
| | % cd /shares/data/indexes |
| | % mkdir hisat2_indexes |
| | % mkdir hisat2_indexes/r49 |
| | % mkdir hisat2_indexes/r49/interim_files |
| | |
| | # Ici, on assume que HISAT2 est sur le $PATH; les scripts devraient se trouver |
| | # au même niveau que l'application. |
| | % cd hisat2_indexes/r49/interim_files |
| | # Il faut rediriger la sortie vers un fichier sinon ça sort sur STDOUT... |
| | % hisat2_extract_extract_exons.py /shares/data/annotations/gencode/r49/gencode.v49.annotation.gtf > ./gencode_r49_ss.txt |
| | % hisat2_extract_extract_splice_sites.py /shares/data/annotations/gencode/r49/gencode.v49.annotation.gtf > ./gencode_r49_ss.txt |
| | # Etape facultative: extraction des infos pour les variations génétiques |
| | # Dernière version disponible |
| | % curl -L -O http://hgdownload.soe.ucsc.edu/goldenPath/hg38/database/snp151Common.txt.gz |
| | % gunzip snp151Common.txt.gz |
| | # Ici, le script est un peu plus exigeant... Ça prend plus de temps que les étapes précédentes. |
| | % hisat2_extract_snps_haplotypes_UCSC.py /shares/data/annotations/gencode/r49/GRCh38.primary_assembly.genome.fa ./snp151Common.txt gencode_r49_snp_haplo |
| </sxh> | </sxh> |
| | |
| | * Ok, pour la suite, ça nous prend un serveur bien doté en mémoire vive et SLURM pour lancer cette tâche. Il nous faut écrire un script ''bash'' qui sera donner en entrée à l'application ''sbatch'' pour soumettre à l'ordonnanceur de tâches de SLURM. On doit écrire dans l'entête du script des instructions qui seront lues par l'ordonnanceur et qui permettront d'utiliser les bonnes ressources pour l'exécution. Le script qui suit est simplement un exemple capable de rouler sur ''rorqual''; une autre grappe nécessitera fort probablement des instructions différentes. |
| | * À l'aide de ''nano'', écrire le texte suivant: |
| | <sxh bash> |
| | Plus à venir... |
| | </sxh> |
| | |
| * Plus à venir... | * Plus à venir... |
| |