Stockage nearline

From CC Doc
Jump to: navigation, search
This page is a translated version of the page Using nearline storage and the translation is 100% complete.

Other languages:
English • ‎français

Système de fichier virtualisé sur bande

Le système de fichiers hybride /nearline est semblable au système de fichiers /project, mais il peut virtualiser les fichiers en les copiant sur bande selon certains critères comme l’âge ou la taille, et ensuite les recopier sur disque au besoin. Il s’agit d’une solution pour gérer les fichiers qui sont peu utilisés. Seul votre quota /nearline est affecté, mais l'accès à vos fichiers est plus lent qu’avec les systèmes de fichiers /home, /scratch et /project.


Ceci est utile parce que nos bibliothèques de bandes ont une grande capacité qui, de plus, peut être agrandie. Quand un fichier est copié sur bande (ou virtualisé), il demeure visible dans la liste des fichiers du répertoire. Si une opération de lecture est faite sur le fichier, le processus est interrompu pendant un certain temps (quelques minutes) pendant que le contenu du fichier est copié de la bande au disque.

La commande lfs hsm_state permet de savoir si un fichier est sur bande ou encore sur disque.

# Here, <FILE> is still on the disk
$ lfs hsm_state <FILE>
<FILE>: [...]: exists archived, [...]

# Here, <FILE> is archived on tape, there will be a lag when opening it. 
$ lfs hsm_state <FILE>
<FILE>: [...]: released archived, [...]

HSM est l'abréviation de hierarchical storage manager. Pour vous assurer d'obtenir le fichier enregistré sur bande, vous pouvez utiliser

lfs hsm_restore <FILE>

Contrairement à la lecture du fichier, la restoration se ferait implicitement.

Utilisation

Le délai de lecture d’un fichier sur bande étant plus long, l'emploi de /nearline n’est pas adéquat dans le cas de tâches où le temps alloué serait mal employé. Les répertoires /nearline se trouvent dans certains nœuds, mais jamais dans les nœuds de calcul.

Ils devraient être utilisés pour des fichiers de capacité relativement grande. Ne les utilisez pas pour stocker plusieurs petits fichiers. D’ailleurs, sous une certaine capacité, les petits fichiers ne peuvent pas être copiés sur bande :

  • les fichiers de moins de ~200Mo devraient être convertis en fichiers d’archive (tarballs) avec tar ou un autre outil semblable.
  • les fichiers de plus de 300Go devraient être divisés en parts de 100Go avec un outil comme la commande split.

Typiquement, /nearline est utilisé pour y déposer des fichiers et y accéder par la suite comme vous le feriez avec un système de fichier normal; cependant, la lecture des fichiers se fait quelquefois après une longue pause. Les fichiers peuvent aussi être retirés de /nearline. Il est important de savoir qu'un fichier peut se trouver dans l'un des états suivants :

  • à sa création, le fichier est sur disque (non sur bande);
  • après un certain temps (environ une journée), le fichier est copié sur bande. Le fichier est alors sur disque et sur bande; il se comporte comme un fichier sur disque, sauf si vous le modifiez;
  • par la suite, la copie sur disque est éliminée et le fichier est sur bande seulement, en deux copies : une copie locale et l'autre à distance. À ce moment, la lecture est lente, car le contenu doit être rappelé du stockage sur bande;
  • quand un tel fichier est rappelé, il revient au deuxième état.

Accès aux grappes

L'accès au répertoire /nearline se fait par les nœuds de connexion et les DTN (Data Transfer Nodes).

Enregistrez vos fichiers dans votre répertoire ~/nearline/PROJECT. Ils seront copiés sur bande après un certain temps (24 heures en date de février 2019). Si le fichier n’est pas modifié pendant un certain temps (24 heures en date de février 2019), la copie sur disque sera supprimée, virtualisant ainsi le fichier sur bande.


Lorsque vous supprimez un fichier de ~/nearline volontairement ou par accident, la copie sur bande est conservée pour 60 jours. Pour restaurer ces fichiers, vous devez contacter le soutien technique en mentionnant le chemin complet et la version (avec la date), de la même manière que vous procéderiez pour restaurer une copie de sauvegarde. Il est donc important que vous conserviez une copie de la structure complète de votre espace /nearline. La commande ls -R > ~/nearline_contents.txt lancée du répertoire ~/nearline/PROJECT vous permettra de voir où sont situés les fichiers dans votre espace /nearline.

Bientôt disponible, le service sera semblable à celui de Graham.

HPSS est le service /nearline pour Niagara.
Les méthodes d'accès sont :

1. Dans une des partitions archive, soumettre une tâche à l’ordonnanceur Slurm avec les commandes HPSS htar ou hsi; pour des exemples, voyez la documentation HPSS. Travailler avec des scripts offre l’avantage de pouvoir automatiser les transferts; il s’agit de la meilleure méthode si vous utilisez HPSS régulièrement. Vos fichiers HPSS se trouvent dans le répertoire $ARCHIVE, qui est semblable à $PROJECT, mais où /project est remplacé par /archive.

2. Utiliser le nœud VFS (virtual file system) par la commande salloc --time=1:00:00 -pvfsshort quand vous avez peu de fichiers HPSS. Vos fichiers HPSS se trouvent dans le répertoire $ARCHIVE, qui est semblable à $PROJECT, mais où /project est remplacé par /archive.

3. Utilisez Globus pour transférer vos fichiers HPSS avec le point de chute (endpoint) computecanada#hpss. Cette méthode est utile pour un usage occasionnel ou pour les transferts entre HPSS et les autres sites.

Le service est semblable à celui de Graham.