Difference between revisions of "Frequently Asked Questions/fr"

From CC Doc
Jump to: navigation, search
(Created page with "Ce message et le message similaire ''slurmstepd: error: Exceeded job memory limit at some point'' peuvent être trompeurs car dans certains cas, ils indiquent une condition sa...")
(Created page with "Si la tâche a effectivement été terminée parce qu'elle exige plus de mémoire que la quantité demandée, le terme ''killed'' sera compris dans le message d'erreur en sortie.")
Line 54: Line 54:
 
Ce message et le message similaire ''slurmstepd: error: Exceeded job memory limit at some point'' peuvent être trompeurs car dans certains cas, ils indiquent une condition sans gravité. Si la tâche semble s'être terminée normalement puisqu'elle a produit tous les résultats attendus, ne tenez pas compte de ces messages et ne demandez pas plus de mémoire pour les éviter.
 
Ce message et le message similaire ''slurmstepd: error: Exceeded job memory limit at some point'' peuvent être trompeurs car dans certains cas, ils indiquent une condition sans gravité. Si la tâche semble s'être terminée normalement puisqu'elle a produit tous les résultats attendus, ne tenez pas compte de ces messages et ne demandez pas plus de mémoire pour les éviter.
  
If your job was actually killed for exceeding the requested memory, the key word "Killed" should appear in the standard error output of the job.  
+
Si la tâche a effectivement été terminée parce qu'elle exige plus de mémoire que la quantité demandée, le terme ''killed'' sera compris dans le message d'erreur en sortie.  
  
 
However, if you are using job dependencies (<code>dependency=afterok:<jobid></code>), then either of the messages "Exceeded job memory limit" or "Exceeded step memory limit" probably means that the dependent job was cancelled. We are [https://bugs.schedmd.com/show_bug.cgi?id=3820 in discussion] with the Slurm development team about fixing this behaviour, as well as suppressing the misleading messages in non-fatal circumstances.
 
However, if you are using job dependencies (<code>dependency=afterok:<jobid></code>), then either of the messages "Exceeded job memory limit" or "Exceeded step memory limit" probably means that the dependent job was cancelled. We are [https://bugs.schedmd.com/show_bug.cgi?id=3820 in discussion] with the Slurm development team about fixing this behaviour, as well as suppressing the misleading messages in non-fatal circumstances.

Revision as of 16:26, 17 January 2018

Other languages:
English • ‎français


Message d'erreur Disk quota exceeded avec les systèmes de fichiers de l'espace projet

Certains utilisateurs reçoivent ce message d'erreur ou un autre message similaire au sujet du quota en rapport avec leurs répertoires de l'espace projet. Des difficultés ont aussi été rapportées lors du transfert de fichiers vers leur répertoire /project à partir d'une autre grappe. Plusieurs de ces cas sont dus à des problèmes de propriété des fichiers.

Pour savoir si vous avez atteint ou dépassé le quota, utilisez diskusage_report.

[ymartin@cedar5 ~]$ diskusage_report
                             Description                Space           # of files
                     Home (user ymartin)             345M/50G            9518/500k
                  Scratch (user ymartin)              93M/20T           6532/1000k
                 Project (group ymartin)          5472k/2048k            158/5000k
            Project (group/def-zrichard)            20k/1000G              4/5000k

Cet exemple illustre un problème fréquent : l'espace projet de l'utilisateur ymartin contient trop de données dans des fichiers qui appartiennent au groupe ymartin. Ces données devraient se trouver dans des fichiers appartenant à def-zrichard.

En ce qui a trait aux deux dernières lignes,

  • Project (group ymartin) décrit les fichiers qui appartiennent au groupe ymartin; notez que le nom du groupe est le même que celui de l’utilisateur. Ce dernier est le seul membre du groupe et le quota de 2048Ko pour son groupe est très bas.
  • Project (group def-zrichard) décrit les fichiers qui appartiennent au groupe du projet. Il est possible que votre compte soit associé à plusieurs groupes de projet, dont les noms sont sous la forme def-zrichard, rrg-someprof-ab, ou rpp-someprof.

Dans cet exemple, les fichiers ont été associés au propriétaire du groupe ymartin plutôt qu’au propriétaire du groupe def-zrichard, ce qui est inattendu et non souhaitable.

Les nouveaux fichiers et répertoires créés dans /project sont automatiquement associés à un groupe du projet. Les raisons les plus fréquentes pour lesquelles cette association est fautive sont que

  • les fichiers et répertoires sont déplacés d’un espace /home à un espace /project en utilisant la commande mv plutôt que la commande cp;
  • les fichiers et répertoires sont transférés à partir d’une autre grappe à l’aide de rsync ou de scp avec une option forçant de conserver les mêmes caractéristiques de propriété; vérifiez donc les options que vous avez sélectionnées dans votre application de transfert de données.

Avec rsync, utilisez la commande suivante pour transférer à votre répertoire projet un répertoire qui serait localisé à distance :

$ rsync -axvpH --no-g --no-p  remote_user@remote.system:remote/dir/path $HOME/project/$USER/

La compression des données améliorera le débit de transfert :

$ rsync -axvpH --no-g --no-p  --compress-level=5 remote_user@remote.system:remote/dir/path $HOME/project/$USER/

Pour savoir quels groupes vous pouvez utiliser, lancez la commande

[name@server $] stat -c %G $HOME/projects/*/

Si vous êtes le propriétaire des fichiers et que vous voulez les associer à un groupe de projet différent, utilisez la commande chgrp. Si vous devez modifier le propriétaire du groupe pour plusieurs utilisateurs, contactez le soutien technique.

Pour plus d'information, consultez la page Espace projet.

Message d'erreur sbatch: error: Batch job submission failed: Socket timed out on send/recv operation

Vous pourriez recevoir ce message d'erreur si l'ordonnanceur est surchargé (voir la page Exécuter des tâches). Nous tentons toujours d'augmenter la tolérance de Slurm à cet effet et d'éliminer les sources de surcharge ponctuelle, mais ceci est un projet de longue haleine. Notre recommandation est d'attendre environ une minute, puis d'utiliser squeue -u $USER pour voir si la tâche soumise paraît. Si la tâche n'est pas listée, soumettez-la à nouveau.
Notez que ce message survient dans certains cas même lorsque Slurm a accepté la tâche.

Message d'erreur slurmstepd: error: Exceeded step memory limit at some point

Ce message et le message similaire slurmstepd: error: Exceeded job memory limit at some point peuvent être trompeurs car dans certains cas, ils indiquent une condition sans gravité. Si la tâche semble s'être terminée normalement puisqu'elle a produit tous les résultats attendus, ne tenez pas compte de ces messages et ne demandez pas plus de mémoire pour les éviter.

Si la tâche a effectivement été terminée parce qu'elle exige plus de mémoire que la quantité demandée, le terme killed sera compris dans le message d'erreur en sortie.

However, if you are using job dependencies (dependency=afterok:<jobid>), then either of the messages "Exceeded job memory limit" or "Exceeded step memory limit" probably means that the dependent job was cancelled. We are in discussion with the Slurm development team about fixing this behaviour, as well as suppressing the misleading messages in non-fatal circumstances.