что значит архивный контент
HackWare.ru
Этичный хакинг и тестирование на проникновение, информационная безопасность
Веб-архивы Интернета: как искать удалённую информацию и восстанавливать сайты
Что такое Wayback Machine и Архивы Интернета
В этой статье мы рассмотрим Веб Архивы сайтов или Интернет архивы: как искать удалённую с сайтов информацию, как скачать больше несуществующие сайты и другие примеры и случаи использования.
Принцип работы всех Интернет Архивов схожий: кто-то (любой пользователь) указывает страницу для сохранения. Интернет Архив скачивает её, в том числе текст, изображения и стили оформления, а затем сохраняет. По запросу сохранённые страницу могут быть просмотрены из Интернет Архива, при этом не имеет значения, если исходная страница изменилась или сайт в данный момент недоступен или вовсе перестал существовать.
Многие Интернет Архивы хранят несколько версий одной и той же страницы, делая её снимок в разное время. Благодаря этому можно проследить историю изменения сайта или веб-страницы в течение всех лет существования.
В этой статье будет показано, как находить удалённую или изменённую информацию, как использовать Интернет Архивы для восстановления сайтов, отдельных страниц или файлов, а также некоторые другие случае использования.
Wayback Machine — это название одного из популярного веб архива сайтов. Иногда Wayback Machine используется как синоним «Интернет Архив».
Какие существуют веб-архивы Интернета
Я знаю о трёх архивах веб-сайтов (если вы знаете больше, то пишите их в комментариях):
web.archive.org
Этот сервис веб архива ещё известен как Wayback Machine. Имеет разные дополнительные функции, чаще всего используется инструментами по восстановлению сайтов и информации.
Для сохранения страницы в архив перейдите по адресу https://archive.org/web/ введите адрес интересующей вас страницы и нажмите кнопку «SAVE PAGE».
Для просмотра доступных сохранённых версий веб-страницы, перейдите по адресу https://archive.org/web/, введите адрес интересующей вас страницы или домен веб-сайта и нажмите «BROWSE HISTORY»:
В самом верху написано, сколько всего снимком страницы сделано, дата первого и последнего снимка.
Затем идёт шкала времени на которой можно выбрать интересующий год, при выборе года, будет обновляться календарь.
Обратите внимание, что календарь показывает не количество изменений на сайте, а количество раз, когда был сделан архив страницы.
Точки на календаре означают разные события, разные цвета несут разный смысл о веб захвате. Голубой означает, что при архивации страницы от веб-сервера был получен код ответа 2nn (всё хорошо); зелёный означает, что архиватор получил статус 3nn (перенаправление); оранжевый означает, что получен статус 4nn (ошибка на стороне клиента, например, страница не найдена), а красный означает, что при архивации получена ошибка 5nn (проблемы на сервере). Вероятно, чаще всего вас должны интересовать голубые и зелёные точки и ссылки.
При клике на выбранное время, будет открыта ссылка, например, http://web.archive.org/web/20160803222240/https://hackware.ru/ и вам будет показано, как выглядела страница в то время:
Используя эту миниатюру вы сможете переходить к следующему снимку страницы, либо перепрыгнуть к нужной дате:
Лучший способ увидеть все файлы, которые были архивированы для определённого сайта, это открыть ссылку вида http://web.archive.org/*/www.yoursite.com/*, например, http://web.archive.org/*/hackware.ru/
Кроме календаря доступна следующие страницы:
Changes
«Changes» — это инструмент, который вы можете использовать для идентификации и отображения изменений в содержимом заархивированных URL.
Начать вы можете с того, что выберите два различных дня какого-то URL. Для этого кликните на соответствующие точки:
И нажмите кнопку Compare. В результате будут показаны два варианта страницы. Жёлтый цвет показывает удалённый контент, а голубой цвет показывает добавленный контент.
Summary
В этой вкладке статистика о количестве изменений MIME-типов.
Site Map
Как следует из название, здесь показывается диаграмма карты сайта, используя которую вы можете перейти к архиву интересующей вас страницы.
Поиск по Интернет архиву
Если вместо адреса страницы вы введёте что-то другое, то будет выполнен поиск по архивированным сайтам:
Показ страницы на определённую дату
Кроме использования календаря для перехода к нужной дате, вы можете просмотреть страницу на нужную дату используя ссылку следующего вида: http://web.archive.org/web/ГГГГММДДЧЧММСС/АДРЕС_СТРАНИЦЫ/
Обратите внимание, что в строке ГГГГММДДЧЧММСС можно пропустить любое количество конечных цифр.
Если на нужную дату не найдена архивная копия, то будет показана версия на ближайшую имеющуюся дату.
archive.md
Адреса данного Архива Интернета:
На главной странице говорящие за себя поля:
Для поиска по сохранённым страницам можно как указывать конкретный URL, так и домены, например:
Данный сервис сохраняет следующие части страницы:
Не сохраняются следующие части веб-страниц:
Архивируемая страница и все изображения должны быть менее 50 Мегабайт.
Для каждой архивированной страницы создаётся ссылка вида http://archive.is/XXXXX, где XXXXX это уникальный идентификатор страницы. Также к любой сохранённой странице можно получить доступ следующим образом:
Дату можно продолжить далее, указав часы, минуты и секунды:
Для улучшения читаемости, год, месяц, день, часы, минуты и секунды могут быть разделены точками, тире или двоеточиями:
Также возможно обратиться ко всем снимкам указанного URL:
Все сохранённые страницы домена:
Все сохранённые страницы всех субдоменов
Чтобы обратиться к самой последней версии страницы в архиве или к самой старой, поддерживаются адреса вида:
Чтобы обратиться к определённой части длинной страницы имеется две опции:
В доменах поддерживаются национальные символы:
Обратите внимание, что при создании архивной копии страницы архивируемому сайту отправляется IP адрес человека, создающего снимок страницы. Это делается через заголовок X-Forwarded-For для правильного определения вашего региона и показа соответствующего содержимого.
web-arhive.ru
Архив интернет (Web archive) — это бесплатный сервис по поиску архивных копий сайтов. С помощью данного сервиса вы можете проверить внешний вид и содержимое страницы в сети интернет на определённую дату.
На момент написания, этот сервис, вроде бы, нормально не работает («Database Exception (#2002)»). Если у вас есть по нему какие-то новости, то пишите их в комментариях.
Поиск сразу по всем Веб-архивам
Может так случиться, что интересующая страница или файл отсутствует в веб архиве. В этом случае можно попытаться найти интересующую сохранённую страницу в другом Архиве Интернета. Специально для этого я сделал довольно простой сервис, который для введённого адреса даёт ссылки на снимки страницы в рассмотренных трёх архивах.
Что делать, если удалённая страница не сохранена ни в одном из архивов?
Архивы Интернета сохраняют страницы только если какой-то пользователь сделал на это запрос — они не имеют функции обходчиков и ищут новые страницы и ссылки. По этой причине возможно, что интересующая вас страница оказалась удалено до того, как была сохранена в каком-либо веб-архиве.
Тем не менее можно воспользоваться услугами поисковых движков, которые активно ищут новые ссылки и оперативно сохраняют новые страницы. Для показа страницы из кэша Google нужно в поиске Гугла ввести
Если ввести подобный запрос в поиск Google, то сразу будет открыта страница из кэша.
Для просмотра текстовой версии можно использовать ссылку вида:
Для просмотра исходного кода веб страницы из кэша Google используйте ссылку вида:
Например, текстовый вид:
Как полностью скачать сайт из веб-архива
Если вы хотите восстановить удалённый сайт, то вам поможет программа Wayback Machine Downloader.
Программа загрузит последнюю версию каждого файла, присутствующего в Архиве Интернета Wayback Machine, и сохранить его в папку вида ./websites/example.com/. Она также пересоздаст структуру директорий и автоматически создаст страницы index.html чтобы скаченный сайт без каких либо изменений можно было бы поместить на веб-сервер Apache или Nginx.
Об установке программы и дополнительных опциях смотрите на странице https://kali.tools/?p=5211
Пример скачивания полной копии сайта suip.biz из веб-архива:
Структура скаченных файлов:
Локальная копия сайта, обратите внимание на провайдера Интернет услуг:
Как скачать все изменения страницы из веб-архива
Если вас интересует не весь сайт, а определённая страница, но при этом вам нужно проследить все изменения на ней, то в этом случае используйте программу Waybackpack.
К примеру для скачивания всех копий главной страницы сайта suip.biz, начиная с даты (—to-date 2017), эти страницы должны быть помещены в папку (-d /home/mial/test), при этом программа должна следовать HTTP редиректам (—follow-redirects):
Чтобы для указанного сайта (hackware.ru) вывести список всех доступных копий в веб-архиве (—list):
Как узнать все страницы сайта, которые сохранены в веб-архиве
Для получения ссылок, которые хранятся в Архиве Интернета, используйте программу waybackurls.
Эта программа извлекает все URL указанного домена, о которых знает Wayback Machine. Это можно использовать для быстрого составления карты сайта.
Чтобы получить список всех страниц о которых знает Wayback Machine для домена suip.biz:
Заключение
Предыдущие три программы рассмотрены совсем кратко. Дополнительную информацию об их установке и об имеющихся опциях вы сможете найти по ссылкам на карточки этих программ.
Ещё парочка программ, которые работают с архивом интернета:
Сколько стоит собирать информацию в архивах
Пособие для начинающих исследователей
Я исследователь и автор книг об истории России.
Меня привлекает период, который предшествовал революции. С одной стороны, это вполне современная жизнь с поездами, автомобилями, фотоаппаратами, велосипедами и телефонами, а с другой — в это время в России еще сохранялся традиционный уклад. Красоту этого уклада я и хочу показать читателям своих книг.
Изучать этот период невозможно без архивной работы. Впервые я попала в архив в 2007 году, когда была студенткой, и с тех пор вот уже 14 лет продолжаю свои исследования.
Расскажу, как организовать тур по архивам, запросить нужные сведения, получить копии документов и не замерзнуть зимой в очереди из исследователей.
Как я собираю информацию по архивам
Историческую книгу нельзя придумать самому, это не художественный роман. Информацию для нее нужно искать в архивах с документами — фондах частных лиц, государственных и общественных учреждений.
Я написала несколько научно-популярных статей и две книги по истории России — «Великий магистр революции» и «Октябрический режим». Недавно собирала материалы для третьей книги об одном малоизвестном историческом деятеле начала 20 века.
Материалы были разбросаны по всей России и зарубежью, но я решила ограничить рамки исследования федеральными и ближайшими региональными архивами. Один из них находится в Астрахани, где я живу, другие — в пределах 12 часов езды на поезде. Сбор информации затянулся на три года — из-за пандемии и длительного ремонта в архиве, где хранились важные документы.
Я совершила девять командировок и потратила около 100 000 Р :
Как организовать поездку
Жилье. В ближайшие архивы я стараюсь ездить одним днем, чтобы сэкономить на гостинице. Для более продолжительных поездок приходится искать жилье. За годы исследований я перепробовала все варианты: общежития, съемные квартиры и гостиницы — от самых бюджетных до пятизвездочных.
Чем дешевле жилье, тем выше вероятность бытовых несуразиц. Например, администрация одной московской гостиницы на третий день проживания внезапно потребовала доплатить за свободные койко-места в моем номере. Ситуация была неприятная: на часах 10 вечера, у меня нагло вымогают деньги.
Когда я отказалась платить, администратор ответила: «Хорошо, если вы согласны на подселение, мы пришлем к вам постояльца. Но имейте в виду, что обычно у нас мужчины живут вместе с женщинами». Мне удалось убедить администрацию отложить вопрос до утра. Все закончилось хорошо: на следующий день пришел другой сотрудник, который отменил несуразное требование.
После подобных неприятных моментов я решила, что не буду экономить на жилье. Теперь стараюсь выбирать старые гостиницы, которые работают с советских времен и украшены хотя бы тремя звездочками. Это не роскошь, а гарантия минимального порядка.
Транспорт. На короткие расстояния — от 400 до 600 км — я езжу поездом, на большие — летаю самолетом. Иногда комбинирую разные виды транспорта и во время одной командировки стараюсь охватить несколько городов. Например, по пути в далекие федеральные архивы попутно посещаю региональные. Чтобы сэкономить, пользуюсь скидками за участие в бонусной программе РЖД, выбираю верхние полки купе и плацкарта.
Мой конек — многоступенчатые командировки. Иногда останавливаюсь в попутном городе, чтобы пересесть на поезд с более удобным графиком или высоким классом. Если я делю поездку на отдельные сегменты, то могу гибко использовать бонусную систему.
Однако пересадки увеличивают риски во время путешествий. Например, однажды вечером я села в поезд, чтобы ночью прибыть в промежуточный пункт и там же пересесть на другой. Но по дороге наш поезд сбил трех коров, из-за чего мы приехали позже на полтора часа — моя пересадка сорвалась.
Администрация вокзала предоставила мне гостиницу, чтобы компенсировать неудобства. В промежуточном пункте как раз находился архив, который меня тоже интересовал, так что исследование только выиграло от этого инцидента. Но коров очень жалко.
Что взять с собой. Я езжу налегке: беру минимум личных вещей — чем меньше багажа, тем мобильнее исследователь. При работе с архивными данными приходится много и быстро конспектировать. Поначалу я путешествовала с тетрадями и писала в них от руки, потом стала возить нетбук, за который приходилось волноваться. Я опасалась не только воров, но и всяких эксцессов — в поездке всякое может случиться.
Я пришла к простому рецепту: беру телефон и подсоединяю к нему компактную проводную клавиатуру без цифрового блока. Важно, чтобы телефон поддерживал OTG — функцию подключения периферийных устройств. Такой комплект удобен в поездках: не занимает много места, мало весит и не привлекает внимание воров.
Набирать текст на телефоне с клавиатурой почти так же удобно, как на ноутбуке. Надо лишь привыкнуть работать с текстовым редактором на маленьком дисплее. Но я на экран не смотрю: набираю слепым методом и не обращаю внимания на опечатки, ведь главное — это скорость.
Как искать информацию в архивах
Большинство материалов федеральных и региональных архивов открыто для всех желающих.
Получить доступ можно двумя способами:
Второй способ работает всегда, а первый — нет. Некоторые архивы не принимают посетителей без направления — обязательно позвоните и уточните этот вопрос до поездки.
Я работаю преподавателем в вузе, и поначалу для каждой командировки брала отношение — письмо за подписью ректора на имя директора архива. Со временем бюрократические сложности начали тяготить, и я стала обращаться в архивы по упрощенной схеме — с личным заявлением. Для моего нынешнего исследования отношение не потребовалось ни разу.
Теперь по шагам расскажу, как получить доступ к архивной информации.
Если изучаете родословную. Ваш главный источник — метрические книги. До революции именно религиозные учреждения были вместо загсов. Например, информацию о православном родственнике можно найти в метрической книге его церковного прихода.
Эти книги хранятся в архиве бывшего губернского или уездного города, к которым относилось религиозное учреждение. Имейте в виду, что границы губерний Российской Империи не всегда соответствуют границам субъектов Российской Федерации. Чтобы определить архив, вы можете обратиться за помощью на генеалогический форум.
Если ищете информацию об учреждениях и исторических деятелях. Такие материалы разбросаны по региональным и федеральным архивам. В первую очередь обратите внимание на архивы региона, где жил ваш персонаж или работало учреждение.
Кроме того, нужные материалы наверняка отложились в центральных архивных фондах соответствующего ведомства. Например, если вы собираете материал об истории духовной семинарии, поработайте с фондами Святейшего Синода в РГИА — Российском государственном историческом архиве.
Исторический персонаж моей книги жил в Царицыне — сейчас это Волгоград. До революции город относился к Саратовской губернии, поэтому нужно было ехать в региональные архивы Саратова и Волгограда. Кроме того, я посетила РГИА в Санкт-Петербурге, где собраны материалы о деятелях со всей страны.
Часто не знаешь заранее, что именно найдешь в конкретном архиве. Нет централизованной системы, где можно было бы вбить ФИО человека и узнать, где хранится информация о нем. Федеральные архивы оцифровывают и размещают на сайтах описи материалов — можно разведать ситуацию, прежде чем ехать. Но в региональных учреждениях, как правило, все на бумаге.
Многие архивы уже проработаны другими авторами. Когда я изучаю историческую литературу, всегда обращаю внимания на ссылки — это подсказка, где искать материал, чтобы раскопать тему поглубже.
В период пандемии архивы сначала закрылись, а затем стали открываться с ограничениями и доступом по предварительной записи.
Моя работа усложнилась: например, я с большим трудом попала в один архив осенью 2020 года. Записаться можно было только на следующий день: сотрудники учреждения пояснили, что их могут закрыть в любую минуту, поэтому они не планируют ничего на больший срок. Причем время пребывания в архиве было ограничено двумя часами — либо утром, либо после обеда.
Заранее уточняйте режим работы архива и правила доступа к нему — по телефону или на сайте организации. Иначе может получиться так, что вы проедете через всю страну и окажетесь перед закрытыми дверями.
Здесь надо будет заполнить бланки документов:
Для последующих посещений архива вам выдадут пропуск — он действует до конца календарного года. При первом же визите в следующем году придется заполнять все заново.
Некоторые архивы принимают регистрационные документы по электронной почте. Это удобно: можно приехать и сразу начать работать с документами, а не тратить время на оформление.
Каждый архив состоит из фондов — наборов документов, которые появились в результате работы какого-то учреждения или человека. Например, бывают фонды банков, газет, общественных и частных организаций, министерств и исторических личностей.
Каждый фонд содержит дела — обычно это папки с подшитыми документами. Но бывают и несброшюрованные дела — конверты, внутри которых лежат отдельные листы. Некоторые материалы хранятся в виде микрофильмов: если запросите такое дело, вам выдадут набор баночек с пленками
В отличие от книги, архивное дело состоит не из страниц, а из листов. Изнанка листа называется оборотом.
Иерархия хранения документов: архив — фонды — дела — листы.
План действий такой:
Найти нужные фонды. Сотрудник читального зала выдаст вам путеводитель — большую книгу с обзором всех фондов архива. Из путеводителя надо выписать номера нужных фондов, передать этот список сотруднику и получить от него описи дел.
Выбрать дела. Опись — это небольшая книжечка со списком всех дел конкретного фонда. Изучите ее и решите, какие именно документы вам нужны.
Оформить бланк заказа. Если вы определились, возьмите у сотрудника читального зала бланк заказа и заполните его — перечислите дела, которые нашли в описи.
Чтобы оформить заказ, не всегда требуется личное присутствие — это зависит от условий работы конкретного архива. Многие учреждения размещают путеводители и оцифрованные описи на сайтах, что очень удобно: можно еще до поездки составить список дел.
Некоторые архивы принимают заказы по электронной почте или через свой сайт, как, например, РГИА. Если вы заказываете дела на сайте этого архива, не нужно ничего писать от руки. Просто указываете номер фонда, описи и дела, а система сама формирует заполненный бланк и направляет его работникам архива.
Если вы заказали дела заранее, то получите их в день приезда. Если же нет, то первый день уйдет на работу с описями и заполнение бланка заказа. После этого придется ждать еще два-три рабочих дня, пока предоставят документы.
Это неудобно, но некоторые архивы сокращают сроки выдачи дел для иногородних посетителей. Ищите информацию об этом на сайте архива и для надежности звоните в читальный зал
Архив может отказать в выдаче дел по разным основаниям.
Самые популярные причины для отказа:
Обычно на работу с делами отводится месяц, но если они больше не нужны, то можно сдать досрочно. Повторно заказать те же самые документы получится не раньше, чем через год.
Выносить дела из здания архива запрещено: исследователи работают с ними в читальном зале под бдительным присмотром видеокамер. Можно делать выписки в тетрадь, пометки на ноутбуке или планшете — только учтите, что не во всех архивах разрешают заряжать технические устройства.
Микрофильмы смотрят там же, в читальном зале, на специальных аппаратах. Работать с этими устройствами несложно, а если возникнут трудности, можно обратиться к сотрудникам читального зала.
Доступ к несброшюрованным материалам может быть ограничен: например, в РГИА есть специальные залы для изучения таких дел.
Основные статьи расходов для иногороднего исследователя — траты на транспорт и проживание. Поэтому чем дольше продолжается работа в архиве, тем дороже командировка. Чтобы не терять время, можно заказать копии документов и подробно изучить их уже дома. Обычно архивы не разрешают копировать дела целиком, но позволяют выбрать отдельные листы.
Раньше, чтобы скопировать документ, нужно было сделать следующее:
Потом исследователи стали добиваться разрешения на самостоятельную фотосъемку архивных дел. В итоге съемку разрешили, но за отдельную плату и с ограничениями в зависимости от вида документов.
Например, в РГИА можно бесплатно фотографировать микрофильмированные дела, но съемка обычных бумажных документов стоит от 41 Р до 57 Р за лист. А в волгоградском архиве придется заплатить от 80 Р до 120 Р за каждый отснятый лист.
Прейскурант госархива Волгоградской областиPDF, 997 КБ
Самостоятельная съемка — самый удобный и быстрый способ копирования. Особо сэкономить не получится, зато не надо ждать: вы уходите из архива с материалами на руках. Для фотосъемки обычно выделяется особое помещение или хотя бы отдельный стол, где исследователь под наблюдением сотрудника архива делает ровно столько кадров, сколько оплатил. Если какой-нибудь снимок вышел смазанным, разрешается его переснять.
Чтобы фотографировать документы, исследователи пользуются смартфонами и многопиксельными беззеркалками. Я же снимаю на старую цифровую мыльницу, мне хватает ее возможностей — даже мелкий текст на фотографиях легко прочитать.
Но бывает, что нужно получить изображения в максимальном качестве. Например, если я хочу продемонстрировать автограф какого-нибудь исторического деятеля в своей книге. В таких случаях я заказываю цифровой скан документов.
Сканирование постепенно вытесняет архивное ксерокопирование. Скан обойдется дороже ксерокопии и самостоятельной фотосъемки: например, РГИА берет 113—180 Р за каждый лист. Все просто и удобно: оставляете заказ, архив выкладывает документы на файлообменник и присылает вам ссылки по электронной почте.
я потратила на копии документов для моей книги — суммарно во всех архивах
Когда я работала с архивными документами в условиях жесткого цейтнота, придумала, как быстро составлять заказ на фотографирование:
Так гораздо быстрее, чем писать номера от руки или печатать: всего за два часа я просмотрела около 1000 листов и выбрала из них 109, чтобы сфотографировать.