Настраиваемый серверный парсер вакансий с разных сайтов
Здравствуйте!
Чтобы упростить задачу можно, конечно, взять список сайтов (порядка ста на разных языках) и сделать под каждый настройки, но это тупиковый путь. Я должен сам добавлять/убирать сайты.
В основном, все сайты с вакансиями однотипные - через поиск вакансий на сайте получаем страницу со ссылками на страницы с вакансиями. Собираем ссылки (кол-во задается) на вакансии и затем парсим в базу все данные вакансий и работодателя (может быть на другой странице) с заданной периодичностью.
Чтобы обойтись без поддержки прокси необходима многопоточность и задержка по времени при обращении к одному и тому же сайту (чтобы не создавать лишнюю нагрузку).
Желательна проверка на повторы - чтобы не парсить старое (скорее всего для этого базу MySQL придется использовать). Статистика и вывод ошибок парсинга по каждому сайту.
Вывод полученных данных по каждому сайту в отдельный xml фид.
Стоимость не указываю в связи с постоянным изменением курса рубля по отношению к доллару. Надо будет с исполнителем согласовывать этапы и оплату.
Если есть уже наработки в этом направлении - хорошо.