Интернет ARChive - Web ARChive

Интернет ARChive
Расширение имени файла
.warc
Тип интернет-СМИ
приложение / warc
Расширен с ARC
Стандарт ISO 28500: 2017
Открытый формат ? да
Веб-сайт iipc .github .io / warc-спецификации / спецификации / warc-format / warc-1 .1 /

В Веб - архив (ВАРК) формат архива определяется способ объединения нескольких цифровых ресурсов в совокупности архивного файла вместе с соответствующей информацией. Формат WARC - это переработка формата файлов ARC_IA Internet Archive , который традиционно использовался для хранения « обходов веб-страниц » в виде последовательностей блоков контента, собранных из World Wide Web . Формат WARC обобщает старый формат, чтобы лучше поддерживать потребности архивных организаций в сборе, доступе и обмене. Помимо записанного в настоящее время основного содержимого, ревизия включает связанный вторичный контент, такой как назначенные метаданные , сокращенные события обнаружения дубликатов и более поздние преобразования. Формат WARC основан на потоках HTTP / 1.0 с аналогичным заголовком и использованием CRLF в качестве разделителей, что делает его очень удобным для реализации поисковых роботов.

Впервые указанный в 2008 году, WARC теперь признан большинством национальных библиотечных систем в качестве стандарта для веб-архивирования.

Программное обеспечение

Рекомендации

Внешние ссылки