Харвестер/парсер html страниц

Константинович17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
19.02.2008

Нужно разработать по сути 3 скрипта (или один, но который умеет делать три задачи):

1. обходит заданные сайты и собирает на них url на страницы, которые попадают под определенный шаблон.

(например, страница содержит заданный текст)

2. по собранным url получает страницы, парсит html (regexp, tidy или еще что то) и формирует xml файл.

3. на основе xml файла формирует пакетные задания для утилиты wget для загрузки файлов.

Есть первая версия скрипта п.п.1,2. Ее можно или доработать (что вряд ли) или просто взять за основу для информации. Так как она была написана очень быстро и для развития мало пригодна.

Цель - получить скрипты, которые без сильного изменения кода можно настраивать на другие схожие сайты. Т.е. все что можно вынести в настройки, шаблоны и т.д. надо вынести. Понятно, что сделать сразу универсального робота нельзя. Но надо получить такую структуру кода, чтобы я потом мог сравнительно легко его адаптировать под другой сайт с другими условиями отбора страниц. Т.е. есть ядро и есть какая то часть которая меняется для конкретного сайта.

Так же важно понимать, что могут быть разные кодировки у страниц и у БД, что при формирование xml надо заменять спец. символы html и т.д. - ну то есть не наступать на грабли, которые связаны с парсингом текста.

Многопоточность не нужна, но важна стабильность работы. Т.е. надо хендлить корректно все возможные errors.

Запуск скриптов предполагается через cron или вручную.

Важно! Скрипт должен уметь работать через прокси (чтобы не было проблем с реальным IP). Делать паузы между запросами.

Технологии: PHP 4.4, MySQL 4.1.

Тематика целевых сайтов - аренда недвижимости.

Сайтов два.

Срок - до конца февраля.

Заявки фрилансеров