Galaxy

From Alliance Doc
Jump to navigation Jump to search
This site replaces the former Compute Canada documentation site, and is now being managed by the Digital Research Alliance of Canada.

Ce site remplace l'ancien site de documentation de Calcul Canada et est maintenant géré par l'Alliance de recherche numérique du Canada.

This page is a translated version of the page Galaxy and the translation is 100% complete.
Other languages:


Introduction

Galaxy est une plateforme web open source pour la recherche biomédicale traitant de grandes quantités de données. La plateforme rend la biologie computationnelle plus accessible, sans exiger une grande expérience en programmation ou en administration de systèmes. Conçue au départ pour la recherche en génomique, Galaxy s’adapte aujourd'hui à la plupart des domaines et sert de système de gestion du flux de travail en bio-informatique.

Pour un aperçu des applications, voyez cette liste de tutoriels.

Disponible sur Cedar seulement

Chaque groupe de recherche peut obtenir une instance Galaxy sur la grappe Cedar. Puisque l’installation demande une configuration particulière, contactez notre équipe technique.

Structure du répertoire

L’installation se fait habituellement dans le répertoire /project du groupe de recherche. Le nom du répertoire source est formé par les deux premiers caractères du nom de la chercheuse ou du chercheur principal (CP), auxquels est ajouté glxy. Par exemple, pour le CP davidc, le nom du répertoire source sera daglxy; le répertoire sera localisé dans /project/group name/group name est le nom du groupe par défaut pour ce CP (def-davidc). Le répertoire principal pour Galaxy contient un ensemble de sous-répertoires qui est quelque peu différent du paquet Galaxy original, soit :

  • config : contient tous les fichiers de configuration pour préparer et optimiser le serveur Galaxy. Dans cette page, nous présenterons seulement les principes de base pour notre environnement de calcul haute performance.
  • galaxy : contient le paquet de base, écrit principalement en Python.
  • logs : contient le fichier galaxy.log qui enregistre les messages générés à l’exécution et le fichier server.log qui enregistre les messages générés au démarrage et à l’arrêt du serveur.
  • plugins : contient les extensions; dans le paquet Galaxy original, ce répertoire se trouve dans le répertoire galaxy.
  • tmp : contient les fichiers temporaires pour la compilation et l’installation des outils (Galaxy ToolShed).
  • venv : répertoire de l’environnement virtuel Python qui contient les dépendances pour les paquets Python.
  • tool-data : contient les données utilisées par les outils; voir les exemples dansData Integration for Local Instances.
  • tool-dependencies : contient tous les paquets nécessaires aux outils ToolShed; ces paquets sont installés avec Anaconda.
  • database : contient les fichiers d’erreurs et les fichiers d’entrée et de sortie pour les tâches exécutées sur les nœuds des grappes.

Propriété et modification des fichiers

Les fichiers d’une instance Galaxy appartiennent à un pseudo-compte, qui est un compte partagé créé à l’installation par un administrateur. Un tel compte n’est la propriété individuelle de personne, mais appartient plutôt à un groupe particulier. Les personnes faisant partie du groupe peuvent se connecter au compte via les clés SSH. Le nom du pseudo-compte est le même que celui du répertoire source; dans le cas de l’exemple utilisé ci-dessus, ce nom serait daglxy. Pour pouvoir modifier les fichiers de l’instance, par exemple les fichiers de configuration, vous devez vous connecter au pseudo-compte. Pour ce faire, il faut d’abord générer une paire de clés SSH, enregistrer votre clé publique dans votre répertoire /home et en informer l’administrateur qui placera votre clé publique au bon endroit.

Gestion du serveur Galaxy

La première chose à faire est de démarrer le serveur Galaxy. Ce serveur ne doit pas être utilisé sur un nœud de calcul, ni un nœud de connexion de Cedar, mais plutôt sur un serveur dédié appelé « passerelle » (gateway). La passerelle contient un serveur web avec les répertoires /project et /home ainsi que les systèmes de fichiers particuliers à Cedar. Il n'est pas possible de s'y connecter par SSH pour des raisons de sécurité, mais le serveur Galaxy peut être démarré et arrêté via un site web que nous avons conçu. Par ce site, vous pouvez aussi accéder à l’interface web du serveur Galaxy.

Dans https://gateway.cedar.computecanada.ca/, cliquez sur le bouton Galaxy et entrez les identifiants pour votre compte Calcul Canada. Après l’authentification, le site web de votre gestionnaire de serveur Galaxy sera affiché et vous pourrez utiliser les fonctions de gestion du serveur ou l’interface web Galaxy.

Configuration du serveur Galaxy

La configuration du serveur se fait avec les fichiers du répertoire config. Nous n’expliquons pas ici en détail comment configurer et optimiser Galaxy. Nous vous invitons plutôt à consulter | le site web de Galaxy.
À l’installation, les variables de base sont paramétrées par l’administrateur dans le fichier de configuration galaxy.yml. Vous pouvez modifier les autres fichiers et variables de ce fichier, mais nous recommandons fortement de ne pas modifier les variables de base suivantes :


  • http:, votre numéro de port unique;
  • database_connection, noms de votre base de données et de votre serveur de base de données;
  • virtualenv, chemin vers un environnement virtuel Python situé sur la passerelle;
    • file_path, new_file_path, tool_config_file, shed_tool_config_file, tool_dependency_dir, tool_data_path, visualization_plugins_directory, job_working_directory, cluster_files_directory, template_cache_path, citation_cache_data_dir, citation_cache_lock_dir, chemins vers les outils, les ToolSheds et les dépendances.

Other variables and files in this directory can be changed by the user.

Utiliser les outils

La plateforme Galaxy est configurée pour soumettre des tâches à la grappe Cedar selon les variables définies dans le fichier job_conf.xml. Vous devrez peut-être modifier certains paramètres selon les outils que vous utilisez. Assurez-vous de bien comprendre le rôle des variables; par exemple, certains outils ont besoin de plus de mémoire ou de plus de temps d’exécution. Pour chaque outil que vous utilisez, faites des tests pour identifier les valeurs optimales.

Comme la passerelle a peu de mémoire et ne traite pas les tâches de manière efficace, nous vous demandons de ne pas utiliser les outils Galaxy localement. Soumettez plutôt vos tâches à Cedar.

Galaxy sur GenAP

La plateforme GenAP (Genetics and Genomics Analysis Platform) est une infrastructure de calcul et un environnement logiciel pour la recherche en sciences de la vie. Depuis 2015, elle offre des applications web faciles à utiliser mettant à profit les ressources infonuagiques et les ressources de calcul haute performance de l'Alliance.

Les personnes qui détiennent un compte avec l'Alliance peuvent demander un compte GenAP sans frais. Les autres chercheuses ou chercheurs parrainés peuvent être invités par la chercheuse principale ou le chercheur principal qui les parraine.

GenAP offre la possibilité d’utiliser votre propre instance Galaxy avec plus de 700 outils préinstallés. GenAP-Galaxy est parfaitement intégrée avec l’infrastructure GenAP et permet de bien utiliser nos ressources de calcul et de stockage, en plus d’interagir avec certaines autres applications GenAP.

Outils

Il n’est pas nécessaire de configurer ou installer GenAP-Galaxy qui fournit des génomes de référence et plus de 700 outils préinstallés.

L’équipe GenAP a aussi développé des outils pour cellules uniques qui sont intégrés avec les outils de visualisation GenAP.

La communauté de la recherche Galaxy participe activement à la synchronisation des génomes de référence et des fichiers d’index de GenAP avec le site principal usegalaxy.org.

Les outils de GenAP-Galaxy sont le plus près possible de ceux de la plateforme Galaxy principale (usegalaxy.org).

Pour des raisons de sécurité, l’installation des outils se fait par notre équipe technique.

L’ajout de nouveaux outils se fait au cas par cas, après analyse.

Utiliser les outils

Il n’est pas nécessaire de configurer GenAP-Galaxy puisque tous les outils, les fichiers d’index et les génomes de référence sont préinstallés.

Les tâches sont soumises à nos grappes via Slurm (aucune configuration requise) avec les paramètres par défaut, soit mémoire vive de 10Go, durée de 24 heures et deux CPU.

Toutefois, pour des tâches intensives comme l’assemblage, ces paramètres peuvent être modifiés dans le menu Job Resources Parameters si les valeurs par défaut ne sont pas suffisantes.


Documentation

La documentation de GenAP présente plus de 50 tutoriels et une introduction à Galaxy sur GenAP.

Où analyser les données

Pour vous aider à décider où analyser vos données, voyez cette comparaison entre GenAP et Cedar.

GenAP Cedar
Serveur Arbutus Cedar
Configuration de Galaxy aucune groupe de recherche
Expérience avec Linux aucune beaucoup
Gestion et mises à jour équipe GenAP groupe de recherche
Configuration du serveur aucune groupe de recherche
Outils préinstallés tous sous-ensemble
Intégration avec Irida oui non
Génomes de référence oui (via CVMFS) non (groupe de recherche)
Quota 1.5 To par défaut espace de stockage alloué via les concours d’allocation des ressources