Difference between revisions of "Frequently Asked Questions/fr"

From CC Doc
Jump to: navigation, search
(Created page with "Cependant, si vous utilisez des dépendances (<code>dependency=afterok:<jobid></code>), les messages ''Exceeded job memory limit'' et ''Exceeded step memory limit'' indiquent...")
Line 56: Line 56:
 
Si la tâche a effectivement été terminée parce qu'elle exige plus de mémoire que la quantité demandée, le terme ''killed'' sera compris dans le message d'erreur en sortie.  
 
Si la tâche a effectivement été terminée parce qu'elle exige plus de mémoire que la quantité demandée, le terme ''killed'' sera compris dans le message d'erreur en sortie.  
  
Cependant, si vous utilisez des dépendances (<code>dependency=afterok:<jobid></code>), les messages ''Exceeded job memory limit'' et ''Exceeded step memory limit'' indiquent probablement que la tâche dépendante a été annulée. Ce comportement et la production des messages indiquant des conditions sans gravité font présentement l'objet d'une [https://bugs.schedmd.com/show_bug.cgi?id=3820 discussion avec l'équipe de développement Slurm].
+
Cependant, si vous utilisez des dépendances (<code>dependency=afterok:<jobid></code>), les messages ''Exceeded job memory limit'' et ''Exceeded step memory limit'' indiquent probablement que la tâche dépendante a été annulée. Ce comportement et la production des messages indiquant les conditions sans gravité mentionnées ci-dessus font présentement l'objet d'une [https://bugs.schedmd.com/show_bug.cgi?id=3820 discussion avec l'équipe de développement Slurm].

Revision as of 16:32, 17 January 2018

Other languages:
English • ‎français


Message d'erreur Disk quota exceeded avec les systèmes de fichiers de l'espace projet

Certains utilisateurs reçoivent ce message d'erreur ou un autre message similaire au sujet du quota en rapport avec leurs répertoires de l'espace projet. Des difficultés ont aussi été rapportées lors du transfert de fichiers vers leur répertoire /project à partir d'une autre grappe. Plusieurs de ces cas sont dus à des problèmes de propriété des fichiers.

Pour savoir si vous avez atteint ou dépassé le quota, utilisez diskusage_report.

[ymartin@cedar5 ~]$ diskusage_report
                             Description                Space           # of files
                     Home (user ymartin)             345M/50G            9518/500k
                  Scratch (user ymartin)              93M/20T           6532/1000k
                 Project (group ymartin)          5472k/2048k            158/5000k
            Project (group/def-zrichard)            20k/1000G              4/5000k

Cet exemple illustre un problème fréquent : l'espace projet de l'utilisateur ymartin contient trop de données dans des fichiers qui appartiennent au groupe ymartin. Ces données devraient se trouver dans des fichiers appartenant à def-zrichard.

En ce qui a trait aux deux dernières lignes,

  • Project (group ymartin) décrit les fichiers qui appartiennent au groupe ymartin; notez que le nom du groupe est le même que celui de l’utilisateur. Ce dernier est le seul membre du groupe et le quota de 2048Ko pour son groupe est très bas.
  • Project (group def-zrichard) décrit les fichiers qui appartiennent au groupe du projet. Il est possible que votre compte soit associé à plusieurs groupes de projet, dont les noms sont sous la forme def-zrichard, rrg-someprof-ab, ou rpp-someprof.

Dans cet exemple, les fichiers ont été associés au propriétaire du groupe ymartin plutôt qu’au propriétaire du groupe def-zrichard, ce qui est inattendu et non souhaitable.

Les nouveaux fichiers et répertoires créés dans /project sont automatiquement associés à un groupe du projet. Les raisons les plus fréquentes pour lesquelles cette association est fautive sont que

  • les fichiers et répertoires sont déplacés d’un espace /home à un espace /project en utilisant la commande mv plutôt que la commande cp;
  • les fichiers et répertoires sont transférés à partir d’une autre grappe à l’aide de rsync ou de scp avec une option forçant de conserver les mêmes caractéristiques de propriété; vérifiez donc les options que vous avez sélectionnées dans votre application de transfert de données.

Avec rsync, utilisez la commande suivante pour transférer à votre répertoire projet un répertoire qui serait localisé à distance :

$ rsync -axvpH --no-g --no-p  remote_user@remote.system:remote/dir/path $HOME/project/$USER/

La compression des données améliorera le débit de transfert :

$ rsync -axvpH --no-g --no-p  --compress-level=5 remote_user@remote.system:remote/dir/path $HOME/project/$USER/

Pour savoir quels groupes vous pouvez utiliser, lancez la commande

[name@server ~]$ stat -c %G $HOME/projects/*/

Si vous êtes le propriétaire des fichiers et que vous voulez les associer à un groupe de projet différent, utilisez la commande chgrp. Si vous devez modifier le propriétaire du groupe pour plusieurs utilisateurs, contactez le soutien technique.

Pour plus d'information, consultez la page Espace projet.

Message d'erreur sbatch: error: Batch job submission failed: Socket timed out on send/recv operation

Vous pourriez recevoir ce message d'erreur si l'ordonnanceur est surchargé (voir la page Exécuter des tâches). Nous tentons toujours d'augmenter la tolérance de Slurm à cet effet et d'éliminer les sources de surcharge ponctuelle, mais ceci est un projet de longue haleine. Notre recommandation est d'attendre environ une minute, puis d'utiliser squeue -u $USER pour voir si la tâche soumise paraît. Si la tâche n'est pas listée, soumettez-la à nouveau.
Notez que ce message survient dans certains cas même lorsque Slurm a accepté la tâche.

Message d'erreur slurmstepd: error: Exceeded step memory limit at some point

Ce message et le message similaire slurmstepd: error: Exceeded job memory limit at some point peuvent être trompeurs car dans certains cas, ils indiquent une condition sans gravité. Si la tâche semble s'être terminée normalement puisqu'elle a produit tous les résultats attendus, ne tenez pas compte de ces messages et ne demandez pas plus de mémoire pour les éviter.

Si la tâche a effectivement été terminée parce qu'elle exige plus de mémoire que la quantité demandée, le terme killed sera compris dans le message d'erreur en sortie.

Cependant, si vous utilisez des dépendances (dependency=afterok:<jobid>), les messages Exceeded job memory limit et Exceeded step memory limit indiquent probablement que la tâche dépendante a été annulée. Ce comportement et la production des messages indiquant les conditions sans gravité mentionnées ci-dessus font présentement l'objet d'une discussion avec l'équipe de développement Slurm.