C’est un savoir spécialisé étendu et une infrastructure spécifique qui sont nécessaires pour traiter correctement les médias analogiques et numériques. Ils sont d’autant plus nécessaires lorsque la numérisation et/ou la conservation numérique à long terme doivent se faire dans l’institution ellemême. Il s’ensuit la question de fond de savoir dans quelle mesure les compétences et les infrastructures propres peuvent être élargies, quelles prestations peuvent être externalisées et quelles sont les limites des ressources humaines et financières.
De nombreux services d’archives disposent aujourd’hui d’une solution d’archivage numérique pour les documents de l’administration et sont par ex. connectés aux serveurs des archives cantonales. Il s’agit là de bonnes conditions préalables mais il ne faut pas oublier qu’avec les fichiers au contenu audiovisuel, il s’agit de volumes de données qui dépassent au multiple les documents administratifs typiques ou les documents en format texte, spécialement lorsque les documents présentent les formats d’archivage recommandés. Il n’est donc souvent pas possible d’intégrer, sans autre, du matériel audiovisuel numérique dans le système d’archivage numérique existant. Les points suivants sont importants pour vérifier si les exigences sont remplies ou non.
-
Inventaire quantitatif et qualitatif (volume total, médias, état).
-
Identification des objets audiovisuels.
-
Évaluation archivistique et priorisation des mesures de conservation.
-
Concept de conservation :
-
choix des formats cibles appropriés (format d’archivage et copies d’utilisation) ;
-
choix de l’infrastructure technique pour la numérisation et préparation des données ;
-
choix des solutions de stockage.
-
-
Concept de classement et de description : métadonnées importées et générées par le processus, métadonnées techniques et descriptives, normes, etc.
-
Concept d’accès et d’utilisation : instruments de recherche, infrastructure d’accès et d’utilisation.
-
Établissement d’un plan d’urgence et de gestion des risques. Examen du bâtiment et des conditions climatiques (sont-ils appropriés ?)
-
Plan de financement (pour la numérisation ET la conservation ainsi que pour l’entretien à long terme des données issues de la numérisation).
Il faut également prêter attention aux points suivants :
-
Le personnel responsable doit avoir la possibilité de payer les compétences de base et de suivre une formation continue. Pour la mise en œuvre détaillée, il faut néanmoins recourir à des expertes (en informatique, en restauration, etc.) ;
-
Les changements dus à la conservation à long terme doivent être des critères décisifs pour la prise de décision. Ce principe doit régir la technique informatique, soumise à des changements plus rapides et intensifs, mais aussi les ressources financières et humaines.
-
La construction de l’infrastructure pour la conservation de longue durée doit être planifiée de telle façon que le service d’archives puisse préserver le statu quo même lorsque la situation des moyens financiers et en personnel devient critique. Dans l’industrie, des fusions ou des achats d’entreprises, par ex., peuvent amener à négliger les archives.
-
Un plan d’urgence doit exister pour faire face à des situations extrêmes comme des catastrophes et des coupes financières sévères.
-
Le concept existant de l’archivage à long terme doit être régulièrement remis en question et amélioré car les conditions cadre techniques sont soumises à une évolution perpétuelle.
-
Il faut clarifier la manière dont les fonds et collections se développent dans l’institution patrimoniale. L’espace, l’infrastructure et les plans d’urgence doivent aussi tenir compte de l’accroissement prévu.
-
Pour garantir la qualité, des mécanismes de contrôle réguliers sont indispensables : en font partie le contrôle d’entrée lors de la réception, le contrôle pendant le traitement, ainsi que la maintenance et le contrôle régulier des fichiers archivés.
-
Les copies d’utilisation ne doivent pas être conservées dans le respect des mêmes exigences que les copies numériques d’archivage à long terme. Elles doivent avant tout être stockées ailleurs ou être accessibles par une autre infrastructure, parce qu’elles sont utilisées plus souvent et par un autre type d’usager.
Si les exigences et recommandations susmentionnées ne peuvent pas être remplies en interne, il existe la possibilité de confier, sous forme de dépôt ou de don, les médias que l’on ne peut pas prendre en charge correctement à des institutions patrimoniales spécialisées. L’accès au moyen de copies d’utilisation numériques devrait alors être garanti dans le service d’archives originel. Une communication active doit exister entre le service d’archives d’origine et le service récepteur. Cette communication doit également porter sur les mesures et les modifications relatives aux documents d’archives transférés. Les copies d’utilisation doivent être actualisées. Les formats qui ne peuvent pas être traités par l’institution même doivent être remis à des prestataires externes pour traitement. Memoriav peut offrir soutien et conseils pour ces démarches/transactions.
Modèles de conservation des données
Les supports ne peuvent pas stocker les données sans créer d’erreur. Dans le cadre d’un stockage analogique, cela n’a pas de conséquences graves, la plupart du temps. En revanche, avec le stockage numérique, les effets peuvent être désastreux selon où et à quelle fréquence les erreurs apparaissent. C’est pourquoi un microprogramme contrôle continuellement si les données aussi sont correctes et les corrige lui-même si nécessaire, sans que les utilisateurs ne le remarquent. Les algorithmes du microprogramme ne peuvent cependant qu’éliminer un nombre limité d’erreurs ; si la limite est franchie, le support tombe en panne et doit être remplacé. Les disques durs d’une capacité allant jusqu’à 2 To sont à cet égard actuellement un peu plus sûrs que les disques durs de capacité plus élevée [> chap. 4.3.8 => Link zu Kapitel].
En cas de stockage redondant (par exemple au moyen d’une architecture RAID (Redundant Array of Independent Disks), les données du support remplacé peuvent être reconstituées ; il faut sinon recourir à une copie de sécurité. Si pareille copie venait à faire défaut, les données seraient perdues.
La pérennité d’un fichier dépend donc essentiellement aussi, en plus d’un format approprié, de la redondance de son stockage. Plus les copies sont nombreuses, plus l’information est redondante à l’intérieur d’une copie, et plus la probabilité de la conservation à long terme du fichier sera grande. La règle des « 3-2-1 » permet une représentation très simple de ce principe : 3 copies des fichiers importants doivent être sauvegardées sur 2 supports différents et 1 copie doit être conservée «offsite», c’est-à-dire éloignée géographiquement du service d’archives (Krogh 2015). Le choix des media de stockage et leur dissémination physique co-déterminent le niveau de sécurité.
La redondance, la duplication et le contrôle sont donc des piliers fondamentaux de l’archivage numérique. Il convient de comparer différentes offres et de recourir à l’avis de tierces personnes, aussi bien pour la création d’une structure informatique dans son propre service d’archives que pour une solution de conservation externe des données à archiver. Memoriav peut en pareils cas servir d’intermédiaire.
Infrastructure informatique
Les pilotes de périphérique et les systèmes d’exploitation sont soumis à des cycles de développement courts, à l’instar du reste de l’industrie informatique. Un soutien logiciel insuffisant entre deux mises à jour (updates) peut rendre obsolètes des équipements (hardware) parfaitement fonctionnels. Au niveau hardware, le simple manque de câbles de connexion et d’interfaces spécifiques empêche le branchement des périphériques. Les interfaces entre les appareils de lecture et l’ordinateur (pilote ou « driver ») se modifient constamment et c’est ainsi qu’un vieil appareil de lecture ne se laisse souvent plus aussi facilement connecter avec un ordinateur moderne. Il est de ce fait nécessaire d’observer l’évolution des logiciels (software) et des équipements (hardware) employés et de réagir en conséquence face aux nouveautés. Dans le choix de l’environnement informatique (appareils, interfaces, systèmes d’exploitation, pilotes/gestionnaires de périphériques), il faut donc tenir compte de la diffusion, de la durée de vie du matériel ou du support de longue durée assuré par l’industrie et il ne faut pas seulement se focaliser sur le choix des formats de fichiers.
Des méthodes comme l’émulation ou le pilotage au moyen d’instructions par ligne de commande offrent certes des possibilités de faire face à ce problème, mais sont très coûteuses en temps et peuvent n’être appliquées que par des informaticiens spécialistes, ce qui entraîne des coûts élevés. Une collaboration étroite institutionnalisée entre les responsables informatiques et les responsables des archives est de ce fait une condition préalable pour des solutions durables lors de la planification et de la gestion d’un système d’archivage numérique.
La combinaison d’un stockage sur des serveurs ou des lecteurs de disque dur (HDD Hard Disk Drive) et d’un stockage hors ligne sur bandes, comme les bandes magnétiques au format ouvert LTO (Linear Tape Open), ainsi que la séparation géographique du stockage des différentes copies sont recommandées pour l’archivage de fichiers. LTO est largement soutenu par un consortium, lequel a établi une carte de route des futurs développements, qui définit et informe sur ces changements plusieurs années à l’avance.
Jusqu'à LTO-7 les bandes sont lisibles deux générations en arrière et peuvent être réécrites une génération en arrière. LTO-8 et LTO-9 lisent et écrivent qu'une génération en arrière.
Un problème subsiste quant au formatage de ces bandes, qui n’est pas standardisé. Le formatage dit TAR (Tape Archiver) est en Open Source. TAR rend cependant l’accès aux fichiers un par un difficile, parce que l’index et le contenu doivent d’abord être ouverts, avant qu’un accès puisse avoir lieu. Un index endommagé peut interdire l’accès aux fichiers. Le temps d’accès lent et l’accès séquentiel constituent généralement un désavantage des bandes informatiques. La génération 5 des LTO a vu l’introduction du Linear Tape File System (LTFS), lui aussi une solution de formatage Open Source des bandes, qui augmente considérablement la compatibilité de LTO et qui peut être objectivement recommandé pour l’archivage. Le contenu d’une bande LTO peut être alors traité de façon comparable au contenu d’un disque dur.
Aucun des supports de stockage susmentionnés n’est conçu pour une conservation de longue durée sur une étagère; Les lecteurs de disque dur ou les bandes magnétiques sont des composantes échangeables dans l’infrastructure d’un système d’archivage et sont idéalement conservés dans une «Library» où des procédures automatisées de contrôle de la lisibilité et de capacité de fonctionnement (« bitstream preservation ») sont appliquées et où les supports défectueux peuvent être facilement identifiés et remplacés. Certes, si seules quelques bandes magnétiques sont utilisées, à l’unique fin de disposer de copies de sécurité, une « Library » n’est pas indispensable.
Dans la pratique, la quantité de données archivées n’atteint pas toujours une masse critique qui justifierait économiquement l’acquisition d’une « Library » et amène à poser la question de la méthode appropriée et des conditions de conservation à moyen terme. Néanmoins, la question de l’obsolescence (outre celle de la lisibilité, susmentionnée) joue un rôle essentiellement plus important. Autrement dit : si des bandes magnétiques ne sont pas exposées à des conditions extrêmes ou totalement inadéquates, elles n’en doivent pas moins être migrées avant l’apparition d’une altération physique, à cause de l’obsolescence des appareils de lecture. En matière d’archivage numérique, ces migrations inévitables (« preservation planning ») pèsent en conséquence plus lourd dans la prise de décision que les conditions physiques de conservation.
Tailles des fichiers et systèmes de fichiers
En règle générale, les copies numériques audiovisuelles sont constituées soit d’un gigantesque fichier (fichiers conteneurs), soit de séries volumineuses de plus petits fichiers (comme des images isolées). Dans les deux cas, leur traitement pousse les systèmes d’exploitation courants à leur limite, parce que les tailles des fichiers ainsi que le nombre de fichiers par répertoire sont limités en fonction du système de fichiers, lequel dépend du système d’exploitation utilisé.
Pour une quantité totale à stocker inférieure ou égale à 2,2 To (avec des fichiers de moins de 4 Go), on ne dénombre pas de problèmes insurmontables. Pour des quantités de données/de fichiers à traiter plus élevées et qui, de ce fait, doivent être adressées avec plus de 32 bits, différentes solutions ont été développées, incompatibles entre elles.
Sur les disques durs des ordinateurs avec un système d’exploitation Microsoft, on trouve généralement les systèmes des fichiers FAT32 (32 bit) ou NTFS (32 ou 64 bit). Macintosh recourt à un système d’exploitation propre Mac OS (Extended), aussi connu sous la désignation de HFS+ (64 bit). Chaque système de fichiers a pour fonction de permettre à l’ordinateur d’identifier et de montrer les contenus des disques durs. Les droits de lecture et d’écriture sont eux aussi influencés par la combinaison du système d’exploitation et du système de fichiers.
La copie de fichiers avec les fonctions glisser-déposer (« drag & drop ») ou copier-coller (« copy & paste ») est une source d’erreurs (i. e. stockage au mauvais endroit) ; ces erreurs ne jouent pas un rôle décisif dans l’usage quotidien. Lorsqu’on a affaire à de très gros volumes de données (qu’il s’agisse de fichiers volumineux ou très nombreux), elles peuvent devenir préoccupantes. Les processus de copie à un niveau inférieur du système d’exploitation (ligne de commande dans la console de saisie) sont moins susceptibles d’erreurs qu’à partir d’une interface utilisateur graphique. Par ex. : la ligne de commande « cp » ou « copy » copie certes parfaitement les données qui se trouvent dans un fichier mais elle ne copie pas le fichier lui-même ; la fonction « ditto » copiera et les données et le fichier. Fondamentalement, des sommes de contrôle (« checksum » en anglais) devraient être établies dans chaque cas pour garantir ou contrôler l’intégrité des fichiers (par ex. MD5, SHA1).
Système d’exploitation de Microsoft
Volume / Taille de fichier maximale :
-
FAT32 : taille maximale 4 Go
-
NTFS : taille de fichier non limitée
Quantité maximale de fichiers dans un répertoire :
-
FAT16 : 512
-
FAT32 : 65 534 fichiers ou répertoires par répertoire
-
NTFS : 4 294 967 295
Système d’exploitation de Macintosh
Volume / Taille de fichier maximale (dépend de l’OS) :
-
Mac OS X v10.310.5.2 : 16 TB
-
À partir de Mac OS X v10.5.3 : presque 8 EB
-
1 EB = 1 Exabyte = 1 000 000 TB = 1018 Bytes
Quantité maximale de fichiers dans un répertoire :
-
HFS/HFS+ : 4 294 967 295 fichiers ou répertoires par répertoire
Stockage des fichiers et sauvegarde à long terme
Conventions de nommage
Les conventions de nommage permettent non seulement le stockage systématique de données mais facilitent aussi leur échange efficace et sûr au sein d’une équipe ainsi qu’avec des partenaires externes. Le nom d’un fichier est composé d’un nom et d’une extension. Ces deux parties sont séparées par un point. L’extension (.pdf, .docx, .avi etc.) indique le type de fichier. Certains systèmes d’exploitation permettent de cacher l’extension dans le gestionnaire de fichier.
Les critères les plus importants sont que les noms des fichiers ne contiennent aucun tréma ni signe de ponctuation ni espace ni aucun caractère spécial, car ces signes peuvent être utilisés comme caractère de fonction dans certains codecs, d’où le risque que les fichiers soient interprétés incorrectement par le système (les tirets et sous-tirets exceptés, dont l’utilisation ne pose pas problème).
Pour garantir une compatibilité entre différents utilisateurs ainsi qu’entre différentes applications (par exemple les programmes de messagerie électronique ou les supports optiques formatés selon la norme ISO 9660), le nom de fichier devrait, extension comprise, ne pas dépasser au total 31 caractères. Les chemins d’accès (chaîne de caractères indiquant l’emplacement du fichier dans le système et les répertoires de fichiers ainsi que son nom) ne devraient pas dépasser 255 caractères au total, en particulier dans les disques durs formatés en NTFS (New Technology File System, Microsoft).
Sauvegarde : l’exemple LTO (Linear Tape-Open)
En règle générale, les donneés de chaque génération de bande magnétique peuvent être migrées vers une autre génération, pour autant que les deux appareils y relatifs soient disponibles. La migration amène avec elle de nombreux désavantages, principalement en ce qui concerne les coûts, mais les services d’archives peuvent aussi y trouver des avantages. Il est possible , par exemple, de gérer les données et les fichiers, voire même, si besoin, de les convertir et / ou empaqueter dans des nouveaux conteneurs pendant le processus de migration.
Pour éviter des migrations superflues, on peut recommander de sélectionner les générations paires ou impaires de bandes magnétiques LTO – mais pas les deux, car cela doublerait les coûts sans apporter de bénéfice supplémentaire.
Générations impaires :
-
Réaliser les nouvelles copies de sécurité sur des bandes LTO-7.
-
Les bandes magnétiques qui existent encore pour les générations 1 à 4 doivent être migrées sans délai et directement sur la génération 7 (voir ci-dessus). La baisse importante des prix des appareils de lecture et des bandes, due à la commercialisation du LTO-8, a fait descendre les coûts à un seuil acceptable pour une institution patrimoniale.
-
La migration des bandes de la 5ème génération sur la génération 7 doit également commencer.
Générations paires :
-
Réaliser les nouvelles copies de sécurité sur des bandes LTO-8.
-
La migration des bandes de la 6ème génération sur la 8ème génération peut être commencée. La baisse de prix des appareils et des bandes (la 7ème génération arrive bientôt sur le marché) rend leur coût acceptable pour une institution patrimoniale.
-
La migration des bandes de la 2ème et la 4ème génération est urgente. Les bandes qui existent encore doivent être directement migrées sur la 8ème génération.
Les solutions offertes par les différents systèmes de fichiers LTO présentent chacune des avantages et des désavantages. Il est recommandé, lors d’un recours au système LTFS (Linear Tape File System) de renoncer à la compression activée d’office en la désactivant. En effet, les algorithmes de compression sont souvent propriétaires et peuvent donc restreindre la compatibilité.
Par ailleurs, la promesse du consortium LTO que chaque génération d’appareils de lecture serait capable de lire les deux générations précédentes a été brisée lors de l’introduction de LTO-8. Les lecteurs LTO8 peuvent certes lire les cassettes LTO-7 mais pas les LTO-6. De plus, le format « M8 » a été introduit, avec lequel les cassettes de la 7ème génération peuvent être formatées et utilisées en 8ème génération sur les appareils LTO-8.
Contrôle de l’intégrité des données
Les fichiers numériques peuvent facilement (et à notre insu) être manipulés, corrompus ou modifiés. Ceci peut arriver manuellement, intentionnellement ou non, mais un transfert défectueux peut lui aussi « corrompre » les fichiers. L’intégrité d’un fichier (en anglais « file fixity ») peut être vérifiée au moyen de sommes de contrôle (« checksum » en anglais). Les sommes de contrôle sont calculées à l’aide des fonctions dites de hachage (« hash function », de l’anglais « hash », « couper en petits morceaux » ; le principe du hash est venu des algorithmes de tri notamment) : il existe différentes fonctions de hachage, toutes différentes dans leur mode de calcul et leur niveau de complexité, comme dans leur diffusion et leur emploi.
Différents programmes existent pour établir et appliquer des sommes de contrôle. Ils ont tous en commun qu’ils livrent toujours le même résultat, dans la mesure où le fichier contrôlé n’est pas modifié. Le système d’exploitation avec lequel le fichier a été créé ou la somme de contrôle a été établie, ou enfin le fichier contrôlé, ces aspects ne jouent aucun rôle. La somme de contrôle est donc une espèce « d’empreinte » du fichier contrôlé. Des applications comme par exemple ffmpeg permettent également d’établir des sommes de contrôle pour les images fixes d’un fichier vidéo.
Dans le domaine de la vidéo, l’algorithme Message-Digest 5 (MD5) domine actuellement le marché mais perd lentement du terrain devant l’algorithme Secure Hash 1 (SHA-1).
La somme de contrôle devrait être générée le plus immédiatement possible après la création du fichier vidéo, ceci afin de garantir que l’on a affaire à des fichiers encore non corrompus (« Bit-Rot » en anglais ; sans faute d’écriture ou de lecture). Il peut être avantageux, selon l’application utilisée, de stocker le fichier vidéo et sa somme de contrôle toujours dans le même répertoire, afin de permettre et de facilite une procédure automatisée de contrôle. Si de gros volumes d’images fixes sont traités, il est recommandé de réunir toutes les sommes de contrôle des images dans un fichier de format texte. Le recours aux sommes de contrôle devrait être automatisé pour exclure toute erreur lors de l’exécution.
Outils de confection des paquets de données
Ces outils regroupent/rassemblent dans le paquet d’archivage les lignes d’enregistrement des métadonnées et les fichiers média :
CURATOR Archive Suite du Fraunhofer Institut für Integrierte Schaltungen (Fraunhofer-ISS, Allemagne), MXF4Mac, BagIt (développé par la Bibliothèque du Congrès pour fabriquer des paquets d’archivage AIP).
Bibliographie
-
Krogh, Peter: Backup Overview, last modified 2015, The 3-2-1 Rule. Online, consulté le 13.12.2022
Dernières modification: avril 2023