Парсер/граббер веб-архива
Нужен консольный скрипт на PHP.
Предлагайте свою цену и сроки. Мне удобнее рассчитываться по часам из расчета 300 рублей за час.
Требования к проекту:
1) файлы должны быть скачаны с помощью pear.php.net/package/HTTP...
причем содержимое файла должно состоять из сериализованного responce объекта.
Псевдо код по сохранению и обработке результатов:
$request = new HTTP_Request2($URL);
$URL_clean = remove_webarchive_prefix($URL);
$response = $request->send();
file_put_contents($path_where_to_save_results." /".md5($URL_clean), serialize(cleanup_webarchive_reponce($responce)));
2) имя файла = md5(page_url)
где page_url – это полный урл данной страницы без префикса вебархива
3) cleanup_webarchive_reponce – должна из полученного хтмл убирать все метки и теги вебархива: во всех урлах, все теги и тулбары. Нужна именно 100% очистка.
Все пометки о том что страница скачана с вебархива должны быть удалены
4) все связанные ресурсы – css, js, img, favicon – и прочее должны быть загружены автоматически и сохранены по соответствующему урлу.
Изображения в CSS, дополнительные стили подключенные через @import, динамически добавляемые ресурсы не подлежат определению и загрузке.
5) для работы с HTML деревом скачанной страницы необходимо использовать phpQuery или аналоги, изменющие дерево через css/xpath селекторы.
6) запуск из командной строки linux примерно так "script.php example.com path/where/results/should/be/saved/" – для скачивания example.com
7) все пути в файле с сохраненной страницей должны быть корректными (без префиксов вебархива)
8) нужно скачивать последние 5 версий сайта (если они есть, если нет – то те что есть), объединив их в одну версию. Более новый файл перезатирает более старый файл с таким же урлом.
9) Во вложении скрипт для проверки корректности скачанных сайтов. Скрипт кладется в корень сайта и на него перенаправляются все запросы пользователей. Скрипт должен открывать скачанные файлы в соответствии с их форматом.