Für den korrekten Umgang mit analogen wie mit digitalen audiovisuellen Medien braucht es umfangreiches spezialisiertes Wissen und eine spezifische Infrastruktur. Dies natürlich um so mehr, wenn die Digitalisierung und/oder die digitale Langzeiterhaltung in der Institution selbst durchgeführt werden sollen. Daher stellt sich grundsätzlich die Frage, inwieweit die eigenen Kompetenzen und Infrastrukturen erweitert werden können, was als externe Dienstleistung eingekauft werden muss und wo die personellen und finanziellen Grenzen liegen.
Viele Archive verfügen inzwischen über eine Lösung für die digitale Archivierung von Verwaltungsunterlagen und sind beispielsweise an kantonale Archivserver angeschlossen. Dies sind gute Voraussetzungen, aber es darf nicht vergessen werden, dass man es bei Dateien mit audiovisuellen Inhalten mit Datenmengen zu tun hat, die solche für typische Verwaltungsunterlagen oder Textdokumente um ein Vielfaches übersteigen, speziell wenn die Dokumente in empfohlenen Archivformaten vorliegen. Es ist also oft nicht ohne Weiteres möglich, digitales audiovisuelles Material in ein bestehendes digitales Archivsystem zu integrieren. Um die Erfüllung der Anforderungen abzuklären sind folgende Punkte wichtig:
-
Quantitative und qualitative Inventarisierung (Gesamtvolumen, Medien, Zustand)
-
Identifikation der Objekte
-
Archivische Bewertung und konservatorische Priorisierung
-
Erhaltungskonzept:
-
Wahl geeigneter Zielformate (Archivformat sowie Benutzungskopien)
-
Wahl der technischen Infrastruktur für die Digitalisierung und die Aufbereitung der Daten
-
Wahl der Speicherlösungen.
-
-
Erschliessungskonzept: übernommene und Prozessmetadaten, technische und deskriptive Metadaten, Standards usw.
-
Zugangs- und Benutzungskonzept: Findmittel und Infrastruktur für den Zugang und die Benutzung
-
Erstellen eines Notfallplans mit Risikomanagement. Eignung der baulichen und klimatischen Gegebenheiten überprüfen
-
Finanzplan (für die Digitalisierung UND die folgende langfristige Erhaltung und Wartung der Daten)
Folgendes ist ebenfalls zu beachten:
-
Dem zuständigen Personal muss die Möglichkeit gegeben werden, sich eine Grundkompetenz anzueignen und sich fortlaufend weiterzubilden. Für die detaillierte Ausführung müssen aber Expertinnen und Experten zugezogen werden (IT-Fachleute, Restaurator-/innen usw.).
-
Die sich aus der Langzeiterhaltung ergebenden Anforderungen sollen massgebend sein für die Entscheidungsfindung. Genauso wie im finanziellen und personellen Bereich sollte dies für die IT-Technik gelten, die schnellem und intensivem Wandel unterworfen ist.
-
Der Aufbau der Infrastruktur für die Langzeiterhaltung sollte so geplant werden, dass auch bei kurzfristigen finanziellen und personellen Engpässen das Archiv seinen Status quo erhalten kann. In der Industrie können z. B. Fusionen bzw. Aufkäufe von Betrieben zur Vernachlässigung von Archivalien führen.
-
Für extreme Einschnitte wie Katastrophen und starke finanzielle Kürzungen sollte ein Notfallplan bestehen.
-
Das bestehende Konzept der Langzeiterhaltung muss regelmässig hinterfragt und verbessert werden, da die technischen Rahmenbedingungen einem steten Wandel unterworfen sind.
-
Es muss abgeklärt werden, wie sich die Bestände und Sammlungen in der Gedächtnisinstitution entwickeln werden. Raum, Infrastruktur und Notfallpläne müssen auch auf die Prognose des Zuwachses ausgerichtet werden.
-
Für die Sicherung der Qualität sind regelmässige Kontrollmechanismen unerlässlich: Dazu gehören die Eingangskontrolle bei der Aufnahme ins Archiv, die Kontrolle während der Verarbeitung der Archivalien sowie die regelmässige Wartung und Kontrolle der Archivdateien.
-
Benutzungskopien müssen nicht nach den gleichen Anforderungen aufbewahrt werden wie die digitalen Archivkopien für die Langzeiterhaltung. Sie sollten vor allem an einem anderen Ort gelagert werden bzw. mit einer anderen Infrastruktur zugänglich sein, da sie häufiger und von einem anderen Publikum genutzt werden.
Können die genannten Anforderungen und Empfehlungen nicht intern erfüllt werden, so gibt es die Möglichkeit, Medien, für die nicht adäquat gesorgt werden kann, spezialisierten Gedächtnisinstitutionen als Depositum oder Schenkung anzuvertrauen. Der Zugang über digitale Benutzungskopien sollte dabei im Ursprungsarchiv gewährleistet werden. Es muss eine aktive Kommunikation zwischen Ursprungs- und Empfängerarchiv sowie über Massnahmen und Änderungen betreffend die übertragenen Archivalien stattfinden. Die Benutzungskopien müssen entsprechend aktuell gehalten werden. Formate, die von der eigenen Institution nicht bearbeitet werden können, müssen zur Bearbeitung an externe Dienstleister übergeben werden. Memoriav kann für solche Transaktionen beratend unterstützen.
Datenhaltungsmodelle
Träger können Daten nicht vollständig fehlerfrei speichern, was bei analoger Speicherung meistens keine gravierenden Folgen hat, aber bei digitaler Speicherung verheerende Auswirkungen haben kann, abhängig davon, wie häufig und wo Fehler auftreten. Deshalb kontrolliert die Firmware dieser Datenträger ständig, ob die Daten auch korrekt sind, und korrigiert sie wo nötig selbstständig, ohne dass Benutzende dies bemerken. Die Algorithmen der Firmware können aber nur eine begrenzte Anzahl Fehler beheben; wird die Grenze überschritten, fällt der Datenträger aus und muss ersetzt werden. In dieser Hinsicht sind heute Festplatten mit einer Kapazität bis zu 2 TB etwas sicherer als Festplatten mit einer höheren Kapazität.
Bei redundanter Speicherung (z. B. mittels RAID-Architektur) können die Daten eines ersetzten Datenträgers wiederhergestellt werden, ansonsten muss man auf eine Sicherheitskopie zurückgreifen. Sollte eine solche fehlen, wären die Daten verloren.
Die Beständigkeit einer Datei ist, neben der Eignung ihres Formats, also auch wesentlich abhängig von der Redundanz ihrer Speicherung. Je mehr Kopien vorliegen und je grösser die Redundanz der Information innerhalb einer Kopie ist, desto grösser ist die Wahrscheinlichkeit ihrer langfristigen Erhaltung. Die «3-2-1-Regel» fasst diesen Umstand in eine sehr einfache Form: Von wichtigen Dateien sollen drei Kopien auf zwei unterschiedlichen Typen von Datenträgern und eine Kopie «offsite», also in örtlicher Distanz zum eigentlichen Archiv, gespeichert werden (Krogh 2015). Die Wahl der Speichermedien und ihre räumliche Trennung bestimmen den Grad der Sicherheit mit.
Redundanz, Duplizierung und Kontrolle sind also Grundpfeiler der digitalen Archivierung. Sowohl für die Errichtung einer IT-Struktur im eigenen Archiv als auch für das externe Aufbewahren von zu archivierenden Daten lohnt es sich, verschiedene Angebote zu vergleichen und Drittmeinungen einzuholen. Memoriav kann in solchen Fällen vermitteln.
IT-Infrastruktur
Gerätetreiber und Betriebssysteme unterliegen ähnlich kurzen Entwicklungszyklen wie der restliche IT-Bereich. Fehlende Softwareunterstützung kann perfekt funktionstüchtige Hardware von einem Update zum nächsten obsolet machen. Auf Hardwareebene verhindert nicht selten das simple Fehlen spezifischer Verbindungskabel und Schnittstellen die Verbindung von Geräten. Die Schnittstellen zwischen Abspielgeräten und Steuercomputer ändern sich fortlaufend und so lässt sich ein altes Lesegerät oft nicht so einfach mit einem modernen Computer verbinden. Es ist daher notwendig, die Entwicklungen der verwendeten Soft- und Hardware zu beobachten und entsprechend auf Neuerungen zu reagieren. Methoden wie Emulation und Steuerung via Befehlen in der Kommandozeile bieten zwar Möglichkeiten, diesen Problemen zu begegnen, sind aber sehr zeitaufwändig und erfordern hoch spezialisiertes Know-how. Eine institutionalisierte enge Zusammenarbeit zwischen IT-Verantwortlichen und den Archivverantwortlichen bei der Planung und Betreuung eines digitalen Archivsystems ist daher Voraussetzung für nachhaltige Lösungen. Und auch bei der Wahl der IT-Umgebung (Geräte, Schnittstellen, Betriebssystem, Treiber) sollte daher ebenso wie bei der Wahl der Dateiformate auf deren Verbreitung und Langlebigkeit bzw. langfristige Unterstützung durch die Industrie geachtet werden.
Für die Archivierung von Dateien ist eine kombinierte Ablage sowohl auf Servern bzw. HDDs als auch auf bandbasierten IT-Speichermedien wie LTO (Linear Tape-Open) sowie die geografische Trennung der Speicherung verschiedener Kopien zu empfehlen. LTO wird von einem Konsortium breit abgestützt. Für Weiterentwicklungen hat das Konsortium eine Roadmap festgelegt, nach der die Weiterentwicklungen mehrere Jahre im Voraus definiert und kommuniziert werden.
Bis und mit Generation LTO-7 sind die LTO-Bänder zwei Generationen zurück lesbar, eine Generation zurück beschreibbar. LTO-8 und LTO-9 sind nur noch eine Generation zurück lesbar.
Es bleibt das Problem, dass die Formatierung dieser Bänder nicht standardisiert ist. Die sogenannte TAR-Formatierung (Tape Archiver) ist Open Source. TAR macht aber den Zugriff auf einzelne Dateien umständlich, da das Inhaltsverzeichnis und der Inhalt erst entpackt werden müssen, bevor ein Zugriff erfolgen kann. Ein beschädigtes Inhaltsverzeichnis kann den Zugriff auf die Dateien verunmöglichen. Allgemein können die langsame Zugriffszeit und der sequenzielle Zugriff ein Nachteil der IT-Bänder sein. Mit der Generation 5 von LTO wurde das Linear Tape File System (LTFS) eingeführt, ebenfalls eine Open-Source-Formatierung der Bänder, welche die Kompatibilität von LTO erheblich erhöht und für die Archivierung grundsätzlich empfohlen werden kann. Der Inhalt eines LTO-Bandes kann auf ähnliche Weise wie derjenige einer Festplatte bearbeitet werden.
Keines der erwähnten Speichermedien ist für die langfristige Erhaltung im Gestell bestimmt, HDDs oder Datenbänder sind austauschbare Elemente in der Infrastruktur eines Archivsystems. Idealerweise werden sie in einer «Library» aufbewahrt, wo automatisierte Verfahren zur Überprüfung der Lesbarkeit/Betriebstüchtigkeit («bitstream preservation») angewendet und fehlerhafte Speichermedien einfach erkannt und ersetzt werden können. Werden eher wenige Bänder zu reinen Sicherungszwecken eingesetzt und selten verwendet, ist keine Library erforderlich.
Obwohl in der Praxis die kritische Schwelle der Datenmenge für die wirtschaftlich gerechtfertigte Anschaffung einer Library nicht immer erreicht wird und deshalb die Frage nach geeignetem Umgang und (mittelfristigen) Aufbewahrungsbedingungen aufkommt, spielt die Frage der Obsoleszenz (nebst der erwähnten Lesbarkeit) eine wesentlich wichtigere Rolle. Oder anders formuliert: Falls Bänder nicht extremen oder völlig untauglichen Bedingungen ausgesetzt sind, werden sie vor dem Auftreten von Erhaltungsschäden aufgrund der Obsoleszenz der Lesegeräte migriert werden müssen. Diese unvermeidlichen Migrationen («preservation planning») sind also bei der digitalen Archivierung entscheidender als die physischen Aufbewahrungsbedingungen.
Dateigrössen und Dateisysteme
In der Regel bestehen audiovisuelle Digitalisate entweder aus einer riesig grossen Datei (in Containerdateien) oder aus umfangreichen Serien von kleineren Dateien (als Einzelbilder). In beiden Fällen gerät man bei deren Handhabung oft an die Grenzen der gängigen Betriebssysteme, weil die Dateigrössen sowie die Anzahl Dateien pro Ordner je nach Dateisystem eingeschränkt sind. Letzteres hängt vom verwendeten Betriebssystem ab. Bis zu 2,2 TB Gesamtspeichermenge (mit Dateien bis max. 4 GB) sind noch keine überdurchschnittlichen Probleme zu erwarten. Wenn grössere Datenmengen/Dateien zu verwalten sind und daher mit mehr als 32 bit adressiert werden müssen, haben sich unterschiedliche, untereinander inkompatible Lösungen entwickelt.
Auf Festplatten von Computern mit Microsoft-Betriebssystem findet man im Allgemeinen die Dateisysteme FAT32 (32 bit) oder NTFS (32 oder 64 bit). Macintosh verwendet ein eigenes Dateisystem Mac OS (Extended), auch als HFS+ (64 bit) bekannt. Die jeweiligen Dateisysteme sind für das Erkennen und Anzeigen externer Festplatten durch den Computer zuständig. Auch die Lese- und Schreibrechte werden von der Kombination von Betriebssystem und Dateisystem mit beeinflusst.
Das Kopieren von Dateien mit «drag & drop» oder mit «copy & paste» ist eine Quelle für Schreibfehler; im Alltagsgebrauch spielen diese Fehler keine entscheidende Rolle, im Umgang mit sehr grossen Datenmengen (seien es sehr grosse oder sehr viele Dateien) können sie wichtig werden. Kopiervorgänge auf einer tieferen Ebene des Betriebssystems (Kommandozeilen-Ebene in Eingabekonsole) sind weniger fehleranfällig als in Programmen mit grafischer Benutzeroberfläche. Zum Beispiel: Die Befehlszeile «cp» kopiert zwar die Daten, die sich in einer Datei befinden einwandfrei, nicht aber die Datei selbst; die Funktionen «gcp» oder «ditto» kopieren beides. Grundsätzlich sollten auf jeden Fall für die Sicherheit bzw. Kontrolle der Integrität von Dateien Prüfsummen (z. B. MD5, SHA-1) eingesetzt werden.
Microsoft-Betriebssystem
Maximale Dateigrösse:
FAT32: Maximale Dateigrösse ist 4 GB
NTFS: Keine Limite für Dateigrössen
Maximale Anzahl Dateien in einem Ordner:
FAT16: 512
FAT32: 65 534 Dateien oder Ordner pro Ordner
NTFS: 4 294 967 295
Macintosh-Betriebssystem
Maximale Dateigrösse (betriebssystemabhängig):
Mac OS X v10.3–10.5.2: 16 TB
Ab Mac OS X v10.5.3: fast 8 EB
1 EB = 1 Exabyte = 1 000 000 TB = 1018 Bytes
Maximale Anzahl Dateien in einem Ordner:
HFS/HFS+: 4 294 967 295 Dateien oder Ordner pro Ordner
Dateiablage und langfristige Speicherung
Namenskonventionen
Die Dateibezeichnung setzt sich zusammen aus dem Dateinamen und der Dateinamenserweiterung, die mit einem Punkt voneinander getrennt sind. Namenskonventionen ermöglichen nicht nur die systematische Ablage von Daten, sondern erleichtern auch einen effektiven und sicheren Austausch im Team und mit externen Partnerinnen und Partnern. Die Dateinamenserweiterung (Beispiele: .pdf, .docx, .avi etc.) indiziert den Dateitypen. Das Einblenden der Dateinamenserweiterung im Dateiverwaltungsprogramm ist bei einigen Betriebssystemen optional.
Wichtigste Kriterien sind, dass die Dateinamen keine Umlaute, Satzzeichen, Leerschläge oder sonstige Sonderzeichen enthalten, weil diese als Steuerzeichen in gewissen Codes eingesetzt werden und daher die Gefahr besteht, dass die Dateien vom System falsch interpretiert werden (Bindestriche und Underscores sind davon ausgenommen und können problemlos verwendet werden).
Um eine Kompatibilität zwischen verschiedenen Benutzern zudem mit diversen Anwendungen (z. B. E-Mail-Programmen oder optischen Datenträgern formatiert gemäss ISO 9660) zu gewährleisten, sollte der Dateiname inkl. Dateikürzel insgesamt 31 Zeichen nicht überschreiten. Dateipfade (Zeichenkette, die Speicherort und Dateinamen umfasst) sollten eine Gesamtlänge von 255 Zeichen nicht überschreiten (dies gilt insbesondere für NTFS-formatierte Festplatten).
Speicherung: zum Beispiel LTO
Grundsätzlich können Daten von jeder Generation zu jeder anderen Generation migriert werden, sofern die zwei entsprechenden Geräte verfügbar sind. Die Migration hat viele Nachteile, vor allem was den Aufwand betrifft, aber sie kann für ein Archiv auch Vorteile bieten. So können während einer Migration beispielsweise die Daten und die Dateien gepflegt und bei Bedarf auch transcodiert und/oder in neue Container verpackt werden.
Um unnötige Migrationen zu vermeiden, kann empfohlen werden, entweder die geraden oder die ungeraden LTO-Generationen zu berücksichtigen, aber nicht beide, was doppelt so hohe Kosten ohne zusätzlichen Nutzen mit sich bringen würde.
Ungerade Generationen:
-
Neue Sicherungen auf LTO-7 realisieren.
-
Noch vorhandene Bänder der Generation 1 bis 4 sollten dringend migriert werden, und zwar unmittelbar auf die Generation 7 (siehe oben). Die Preise der Gerätschaften und der Bänder sind auf ein für Gedächtnisinstitutionen vertretbares Niveau gesunken, da die Generation 8 auf dem Markt ist.
-
Mit der Migration von der Generation 5 auf die Generation 7 sollte ebenfalls begonnen werden.
Gerade Generationen:
-
Neue Sicherungen jetzt auf LTO-8 realisieren.
-
Mit der Migration von der Generation 6 auf die Generation 8 kann ebenfalls begonnen werden. Die Preise der Gerätschaften und der Bänder werden sinken, sobald die Generation 9 auf dem Markt ist.
-
Noch vorhandene Bänder der Generation 2 sollten dringend migriert werden, und zwar unmittelbar auf die Generation 8.
Die verschiedenen möglichen Dateisysteme auf LTO haben jeweils ihre eigenen Vor- und Nachteile. Beim Einsatz von LTFS sollte auf die standardmässig eingeschaltete Kompression verzichtet werden (d. h. diese sollte ausgeschaltet werden), da die Kompressionsalgorithmen die Kompatibilität beeinträchtigen können und zudem bereits komprimierte Dateien sich bei einer weiteren Kompression oft vergrössern.
Mit der Einführung von LTO-8 wurde ausserdem das Versprechen des LTO-Konsortiums, dass jede Generation von Geräten zwei frühere Generationen lesen kann, gebrochen. Die LTO-8-Geräte können zwar LTO-7-Kassetten lesen, nicht aber LTO-6-Kassetten. Zudem wurde das Format «M8» eingeführt, mit den Kassetten der Generation LTO-7 auf Geräten der Generation LTO-8 als LTO-8 formatiert und benützt werden können.
Kontrolle der Datenintegrität
Digitale Dateien können leicht (und unbemerkt) manipuliert oder korrumpiert/verändert werden. Dies kann manuell und mit oder ohne Absicht passieren, aber auch durch eine mangelhafte Übertragung können Dateien «korrupt» werden. Die Integrität einer Datei (engl. «file fixity») lässt sich mit Hilfe von Prüfsummen (engl. checksum) überprüfen. Prüfsummen werden mit Hilfe von sogenannten Hashfunktionen berechnet: Verschiedene Hashfunktionen (to hash, engl. für zerhacken) sind unterschiedlich in ihrer Berechnungsweise und Komplexität sowie auch in ihrer Verbreitung und Anwendung. Für das Generieren und den Einsatz von Prüfsummen gibt es verschiedene Programme. Ihnen allen gemein ist, dass sie immer das gleiche Ergebnis liefern, sofern die geprüfte Datei unverändert ist. Dabei spielt es keine Rolle, auf welchem Betriebssystem die Datei erstellt und ihre Prüfsumme berechnet wurden oder auf welchem Betriebssystem die Datei geprüft wird. Die Prüfsumme ist also eine Art «Fingerabdruck» der geprüften Datei. Anwendungen wie z. B. FFmpeg erlauben auch die Berechnung von Prüfsummen der Einzelbilder einer Videodatei. Im Bereich Video ist momentan der Message-Digest Algorithm 5 (MD5) vorherrschend, daneben gibt es auch andere wie der Secure Hash Algorithm 1 SHA-1 oder auch SHA-256. Die Prüfsumme sollte möglichst unmittelbar nach der Erstellung der Videodatei generiert werden, um sicherzustellen, dass es sich beim Material um noch unkorrumpierte Dateien handelt (ohne Bit-Rot, ohne Lese- und Schreibfehler). Je nach Anwendung kann es von Vorteil sein, wenn die Videodatei und ihre Prüfsumme immer im gleichen Ordner abgelegt werden, da so eine automatisierte Überprüfung einfacher möglich ist. Im Umgang mit grossen Mengen von Einzelbildern empfiehlt es sich, alle individuellen Prüfsummen in einer Textdatei zusammenzufassen. Der Einsatz von Prüfsummen sollte automatisiert werden, um Fehler bei der Handhabung auszuschliessen.
Werkzeuge zum Schnüren von Datenpackages
Diese Werkzeuge fassen die Metadatensätze und die Mediadateien vom Sicherungspaket zusammen: CURATOR Archive Suite (Fraunhofer Inst.), MXF4Mac, BagIt (LoC, stellt AIPs her)
Bibliographie und Links
-
Krogh, Peter: Backup Overview, last modified 2015, The 3-2-1 Rule. Online, Stand: 22.2.2022
Letzte Anpassung: April 2023