Running jobs/fr: Difference between revisions

Jump to navigation Jump to search
Updating to match new version of source page
No edit summary
(Updating to match new version of source page)
Line 240: Line 240:
  sacct -j <jobid>
  sacct -j <jobid>
  sacct -j <jobid> --format=JobID,JobName,MaxRSS,Elapsed
  sacct -j <jobid> --format=JobID,JobName,MaxRSS,Elapsed
The output from <code>sacct</code> typically includes records labelled <code>.bat+</code> and <code>.ext+</code>, and possibly <code>.0, .1, .2, ...</code>.
The batch step (<code>.bat+</code>) is your submission script - for many jobs that's where the main part of the work is done and where the resources are consumed.
If you use <code>srun</code> in your submission script, that would create a <code>.0</code> step that would consume most of the resources.
The extern (<code>.ext+</code>) step is basically prologue and epilogue and normally doesn't consume any significant resources.


S'il y a défaillance d'un nœud au cours de l'exécution d'une tâche, celle-ci peut être relancée. <code>sacct</code> montre normalement le dernier enregistrement pour la dernière exécution (présumée réussie). Pour consulter tous les enregistrements relatifs à une tâche, ajoutez l'option <code>--duplicates</code>.
S'il y a défaillance d'un nœud au cours de l'exécution d'une tâche, celle-ci peut être relancée. <code>sacct</code> montre normalement le dernier enregistrement pour la dernière exécution (présumée réussie). Pour consulter tous les enregistrements relatifs à une tâche, ajoutez l'option <code>--duplicates</code>.
Line 381: Line 386:
'''Remarque ː''' Le test servant à déterminer s'il faut soumettre une seconde tâche (<code>work_should_continue</code> dans notre exemple) doit être un ''test positif''. Vous pourriez être tenté de vérifier l'existence d'une condition d'arrêt (par exemple, la rencontre d'un critère de convergence) et soumettre une seconde tâche si la condition ''n'est pas détectée''. Cependant, si une erreur inattendue survient, la condition d'arrêt pourrait ne pas être repérée et la séquence de tâche se poursuivrait indéfiniment.
'''Remarque ː''' Le test servant à déterminer s'il faut soumettre une seconde tâche (<code>work_should_continue</code> dans notre exemple) doit être un ''test positif''. Vous pourriez être tenté de vérifier l'existence d'une condition d'arrêt (par exemple, la rencontre d'un critère de convergence) et soumettre une seconde tâche si la condition ''n'est pas détectée''. Cependant, si une erreur inattendue survient, la condition d'arrêt pourrait ne pas être repérée et la séquence de tâche se poursuivrait indéfiniment.


== Autres considérations ==  
== Cluster particularities ==


=== Sélectionner une architecture CPU ===
There are certain differences in the job scheduling policies from one Compute Canada cluster to another and these are summarized by tab in the following section:


Deux architectures CPU différentes sont disponibles sur Cedar, soit [https://en.wikipedia.org/wiki/Broadwell_(microarchitecture) Broadwell] et [https://en.wikipedia.org/wiki/Skylake_(microarchitecture) Skylake]. Pour indiquer votre choix, utilisez l'indicateur <code>--constraint</code> lors de la soumission de la tâche avec le nom de l'architecture '''en minuscules'''.  
<tabs>
<tab name="Cedar">
Cedar has two distinct CPU architectures available: [https://en.wikipedia.org/wiki/Broadwell_(microarchitecture) Broadwell] and [https://en.wikipedia.org/wiki/Skylake_(microarchitecture) Skylake]. Users requiring a specific architecture can request it when submitting a job using the <code>--constraint</code> flag. Note that the names should be written all in lower-case, <code>skylake</code> or <code>broadwell</code>.  


Par exemple, pour <code>skylake</code> :
An example job requesting the <code>skylake</code> feature on Cedar:
<pre>
<pre>
#!/bin/bash
#!/bin/bash
Line 398: Line 405:
</pre>
</pre>


Remarquez qu'une tâche qui aurait obtenu un nœud entier de type Skylake avec par exemple <tt>#SBATCH --cpus-per-task=32</tt> partagerait les 16 cœurs CPU restants avec une autre tâche; pour réserver le nœud entier, il faut demander les 48 cœurs ou ajouter l'option <tt>#SBATCH --constraint=broadwell</tt> au script de la tâche.  
Keep in mind that a job which would have obtained an entire node for itself by specifying for example <tt>#SBATCH --cpus-per-task=32</tt> will now share the remaining 16 CPU cores with another job if it happens to use a Skylake node; if you wish to reserve the entire node you will need to request all 48 cores or add the <tt>#SBATCH --constraint=broadwell</tt> option to your job script.  


''N'utilisez pas cette option si vous êtes incertain que votre tâche nécessite une architecture particulière.'' Les tâches qui ne nécessitent pas une architecture CPU particulière peuvent être dirigées vers un nœud Broadwell ou Skylake et seront généralement traitées plus rapidement.
''If you are unsure if your job requires a specific architecture, do not use this option.'' Jobs that do not specify a CPU architecture can be scheduled on either Broadwell or Skylake nodes, and will therefore generally start earlier.
</tab>
<tab name="Niagara">
<ul>
<li><p>Scheduling is by node, so in multiples of 40-cores.</p></li>
<li><p> Your job's maximum walltime is 24 hours.</p></li>
<li><p>Jobs must write to your scratch or project directory (home is read-only on compute nodes).</p></li>
<li><p>Compute nodes have no internet access.</p>
<p>[[Data_Management#Moving_data | Move your data]] to Niagara before you submit your job.</p></li></ul>
</tab>
</tabs>


== Dépannage ==
== Dépannage ==
35,279

edits

Navigation menu