Checksums?! Een instrument voor betrouwbare digitale langetermijnbewaring

Bladwijzer 15: wegwijs met Heemkunde Vlaanderen december 2015 • 15

Digitale bestanden zijn kwetsbaar, niet alleen door de snel wijzigende technologie maar ook doordat alle digitale dragers onbetrouwbaar zijn voor langetermijnbewaring als ze niet worden gekoppeld aan o.a. goede back-up- en controleprocedures. Zonder de nodige voorzorgen kunnen digitale gegevens zelfs al op korte termijn verloren gaan of onbedoeld wijzigen. Dit fenomeen noemt men bitrot. De oorzaak hiervan ligt vaak bij de mechanische slijtage van de drager, of in een wijziging van de chemische samenstelling ervan. Daarom is een identieke kopie als back-up steeds noodzakelijk. Ook fouten bij het kopiëren van bestanden kunnen echter gegevensverlies tot gevolg hebben, bv. bij het maken van een back-up.

Een checksum stelt je in staat om dergelijke fouten of informatieverlies op te sporen. Het vertelt je bij de verslechtering van de drager wanneer je het oorspronkelijke bestand moet vervangen door de back-up, en stelt je in staat te verifiëren of de back-up wel een identieke kopie is van het origineel. Iedereen die digitale bestanden duurzaam wil archiveren, zou zonder uitzondering dergelijke checksums moeten aanmaken en ze vervolgens regelmatig moeten controleren.

Het principe van een checksum of controlegetal is erg eenvoudig: op een reeks letters of cijfers wordt met behulp van een algoritme een berekening uitgevoerd, met een nieuwe, kortere tekenreeks als resultaat. Door die berekening achteraf opnieuw uit te voeren en te vergelijken met de vorige uitkomst, kan worden gecontroleerd of de tekenreeks nog correct is. Een bekend voorbeeld is het laatste cijfer van een ISBN-nummer of de eindcijfers van je bankrekeningnummer.

In de informatica wordt deze techniek gebruikt bij datacommunicatie en -opslag. Hierbij wordt een algoritme uitgevoerd op een reeks bits, de verzameling enen en nullen waaruit elk digitaal bestand inessentie bestaat. Wanneer daarvan een bit verandert, levert dit een ander controlegetal op en is het duidelijk dat er iets mis is met het bestand. Zo’n controlegetal kan op elke willekeurige reeks bits worden berekend, dus ook op bijvoorbeeld een digitale afbeelding of tekstbestand.