GNU social JP
  • FAQ
  • Login
GNU social JPは日本のGNU socialサーバーです。
Usage/ToS/admin/test/Pleroma FE
  • Public

    • Public
    • Network
    • Groups
    • Featured
    • Popular
    • People

Embed Notice

HTML Code

Corresponding Notice

  1. Embed this notice
    Jan D (simulo@hci.social)'s status on Sunday, 10-Nov-2024 04:07:58 JSTJan DJan D

    Question for people doing digital #archive stuff: How do I open large (~500mb) WARC files? (https://de.wikipedia.org/wiki/Web_ARChive)
    https://replayweb.page seems to be the recommended way, but it is very sloooooooow. (1MB/60sec)

    In conversationabout 6 months ago from hci.socialpermalink

    Attachments

    1. No result found on File_thumbnail lookup.
      Web ARChive
      Das Web ARChive (WARC) Archivformat spezifiziert ein Verfahren zum Kombinieren mehrerer digitaler Ressourcen in einer aggregierten Archivdatei mit zugehörigen Metadaten. Das WARC-Format ist eine Überarbeitung des ARC-Dateiformats des Internet Archive, das traditionell zum Speichern von „Webcrawls“ als Sequenzen von Inhaltsblöcken aus dem World Wide Web verwendet wird. Das WARC-Format verallgemeinert das ältere Format, um die Anforderungen von Archivierungsunternehmen für die Erfassung, den Zugriff und den Austausch besser zu unterstützen. Neben dem aktuell aufgezeichneten Primärinhalt berücksichtigt die Revision auch verwandte Sekundärinhalte, wie zugewiesene Metadaten. Die Library of Congress verzeichnet das Format in ihrem Projekt „Sustainability of Digital Formats“. WARC wird heute von den meisten nationalen Bibliothekssystemen als Standard für die Webarchivierung anerkannt. So nutzt es beispielsweise die Bayerische Staatsbibliothek in ihren Archivierungsprojekten und die Deutsche Nationalbibliothek empfiehlt es als Standard. Aufbau Eine WARC-Datei besteht aus einem oder mehreren Records. Ein Record besteht dabei aus: …
    2. No result found on File_thumbnail lookup.
      ReplayWeb.page
  • Help
  • About
  • FAQ
  • TOS
  • Privacy
  • Source
  • Version
  • Contact

GNU social JP is a social network, courtesy of GNU social JP管理人. It runs on GNU social, version 2.0.2-dev, available under the GNU Affero General Public License.

Creative Commons Attribution 3.0 All GNU social JP content and data are available under the Creative Commons Attribution 3.0 license.