Directives pour la migration de vos données

From Alliance Doc
Jump to navigation Jump to search
This site replaces the former Compute Canada documentation site, and is now being managed by the Digital Research Alliance of Canada.

Ce site remplace l'ancien site de documentation de Calcul Canada et est maintenant géré par l'Alliance de recherche numérique du Canada.

This page is a translated version of the page General directives for migration and the translation is 100% complete.
Other languages:

Cette page traite des problèmes reliés au transfert de vos données entre nos équipements et ceux de nos partenaires régionaux.

Si vous avez besoin de conseils ou d'information supplémentaire, contactez le soutien technique.

En préparation à la migration

Vérifiez si la migration de vos données doit être effectuée par vous-même ou par notre équipe technique. Pour toute question, contactez le soutien technique.

La migration des données se fait à l'aide de Globus; si vous ne connaissez pas encore ce service, informez-vous de son fonctionnement et assurez-vous qu'il est compatible avec votre système. Pour garantir l'intégrité de vos données, testez le fonctionnement des outils qui seront utilisés sur des données de test; ces outils sont, par exemple tar, gzip ou zip.

Commencez le processus de migration le plus tôt possible. Le temps de migration peut être augmenté en raison de la quantité de données à migrer et de la charge de traitement exigée des ordinateurs ou du réseau. Le transfert de centaines de gigaoctets prendra plusieurs heures, mais prévoyez une journée complète en cas de difficulté. Le transfert de téraoctets nécessitera quelques jours.

Élagage de vos fichiers

Peu d'entre nous avons adopté comme pratique l'inspection régulière de nos données pour en supprimer les éléments superflus. À l'occasion d'une opération majeure de migration, il importe de procéder au nettoyage de vos répertoires et de vos fichiers. Le temps de transfert est diminué d'autant et l'espace de stockage, denrée en grande demande, est ainsi mieux utilisé.

  • Si vous conservez le code source lorsque vous compilez vos applications, supprimez les fichiers intermédiaires.

L'une ou l'autre des commandes make clean, make realclean, ou rm *.o pourrait être utile, selon votre fichier makefile.

  • Si vous ignorez l'utilité de gros fichiers portant des noms comme core.12345, il s'agit probablement de fichiers de vidange (core dumps) qui peuvent être supprimés.

Archivage et compression

La plupart des applications de transfert de données déplacent plus efficacement un seul gros fichier que plusieurs petits fichiers dont le total serait équivalent. Si vos répertoires ou arborescences de fichiers comprennent un grand nombre de petits fichiers, combinez-les pour archivage en utilisant tar.

Dans certains cas, il peut être avantageux de compresser les gros fichiers; c'est le cas par exemple de fichiers texte, dont la taille est souvent considérablement réduite par l'opération de compression. Il n'y a cependant pas toujours un gain de temps significatif à compresser un fichier qui sera décompressé à son arrivée. Il faut considérer les points suivants : l'espace gagné par la compression du fichier, la durée du temps de compression et la disponibilité de la bande passante. Ces points sont discutés dans la section Data Compression and transfer discussion de cette page web produite par le US National Center for Supercomputing Applications.

Si vous estimez que la compression est avantageuse, utilisez tar ou gzip.

Élimination des doublons

Évitez de transférer vers un nouveau système plusieurs fichiers contenant des données identiques.

Certains fichiers possédant le même nom peuvent contenir des données différentes. Assurez-vous de donner des noms uniques à vos fichiers pour éviter que des données différentes soient écrasées.

Processus de migration

Autant que possible, utilisez Globus Online pour effectuer le transfert de vos données; c'est un outil efficace et convivial pour réaliser cette tâche. En cas d'interruption de réseau, Globus possède des fonctions de récupération automatique. Nous vous suggérons de sélectionner preserve source file modification times dans Transfer & Timer Options.

  • verify file integrity after transfer

Il est d'autant plus important de compresser vos données et d'éviter les doublons si vous ne disposez pas de Globus. Si vous devez utiliser scp, sftp, ou rsync;

  • Préparez des blocs de quelques centaines de gigaoctets que vous transférerez un bloc à la fois. S'il y a interruption, vous n'aurez qu'à reprendre l'opération de transfert sur le bloc affecté et les données transférées auparavant ne seront pas touchées. C'est ici qu'une liste de données à transférer s'avère utile.
  • Vérifiez régulièrement la progression du transfert. Une indication à surveiller est la taille des fichiers. S'il n'y a eu aucun changement depuis un certain temps, il est possible qu'il faille intervenir.

S'il ne vous est pas possible de reprendre l'opération de transfert, contactez le soutien technique.

Armez-vous de patience. Même en utilisant Globus, le transfert de données est une opération qui exige du temps. Il est impossible de déterminer exactement le temps de transfert, mais il faut savoir que des centaines de gigaoctets prendront plusieurs heures et que des centaines de téraoctets prendront plusieurs jours.

Après la migration

Si vous n'avez pas utilisé Globus ou si vous n'avez pas sélectionné l'option verify file integrity, assurez-vous que les données transférées ne sont pas corrompues. Un moyen simple est de comparer la taille des fichiers de départ à la taille des fichiers à destination. Pour un examen plus poussé, utilisez cksum et md5sum pour comparer les fichiers. Ceux dont la taille ou le checksum ne concordent pas devraient être transférés à nouveau.

Soutien technique

  • Pour savoir comment utiliser les utilitaires d'archivage et de compression, utilisez la commande Linux man <command> or <command> --help.
  • Contactez le soutien technique.