Парсер/граббер веб-архива

Михаил13 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

30.11.2011

Нужен консольный скрипт на PHP.

Предлагайте свою цену и сроки. Мне удобнее рассчитываться по часам из расчета 300 рублей за час.

Требования к проекту:

1) файлы должны быть скачаны с помощью pear.php.net/package/HTTP...

причем содержимое файла должно состоять из сериализованного responce объекта.

Псевдо код по сохранению и обработке результатов:

$request = new HTTP_Request2($URL);

$URL_clean = remove_webarchive_prefix($URL);

$response = $request->send();

file_put_contents($path_where_to_save_results." /".md5($URL_clean), serialize(cleanup_webarchive_reponce($responce)));

2) имя файла = md5(page_url)

где page_url – это полный урл данной страницы без префикса вебархива

3) cleanup_webarchive_reponce – должна из полученного хтмл убирать все метки и теги вебархива: во всех урлах, все теги и тулбары. Нужна именно 100% очистка.

Все пометки о том что страница скачана с вебархива должны быть удалены

4) все связанные ресурсы – css, js, img, favicon – и прочее должны быть загружены автоматически и сохранены по соответствующему урлу.

Изображения в CSS, дополнительные стили подключенные через @import, динамически добавляемые ресурсы не подлежат определению и загрузке.

5) для работы с HTML деревом скачанной страницы необходимо использовать phpQuery или аналоги, изменющие дерево через css/xpath селекторы.

6) запуск из командной строки linux примерно так "script.php example.com path/where/results/should/be/saved/" – для скачивания example.com

7) все пути в файле с сохраненной страницей должны быть корректными (без префиксов вебархива)

8) нужно скачивать последние 5 версий сайта (если они есть, если нет – то те что есть), объединив их в одну версию. Более новый файл перезатирает более старый файл с таким же урлом.

9) Во вложении скрипт для проверки корректности скачанных сайтов. Скрипт кладется в корень сайта и на него перенаправляются все запросы пользователей. Скрипт должен открывать скачанные файлы в соответствии с их форматом.

CSS HTML JavaScript Linux PHP