Das Web ARChive (WARC) Archivformat spezifiziert ein Verfahren zum Kombinieren mehrerer digitaler Ressourcen in einer aggregierten Archivdatei mit zugehörigen Metadaten. Das WARC-Format ist eine Überarbeitung des ARC-Dateiformats des Internet Archive, das traditionell zum Speichern von „Webcrawls“ als Sequenzen von Inhaltsblöcken aus dem World Wide Web verwendet wird. Das WARC-Format verallgemeinert das ältere Format, um die Anforderungen von Archivierungsunternehmen für die Erfassung, den Zugriff und den Austausch besser zu unterstützen. Neben dem aktuell aufgezeichneten Primärinhalt berücksichtigt die Revision auch verwandte Sekundärinhalte, wie zugewiesene Metadaten.
Die Library of Congress verzeichnet das Format in ihrem Projekt „Sustainability of Digital Formats“.
WARC wird heute von den meisten nationalen Bibliothekssystemen als Standard für die Webarchivierung anerkannt. So nutzt es beispielsweise die Bayerische Staatsbibliothek in ihren Archivierungsprojekten und die Deutsche Nationalbibliothek empfiehlt es als Standard.
Aufbau
Eine WARC-Datei besteht aus einem oder mehreren Records. Ein Record besteht dabei aus:
…