Написать парсер на zennoposter
Необходимо написать парсер для сбора данных с сайта zarplata.ru на zennoposter
В папке с парсером должна быть инструкция - как его запускать (если вдруг сервер перезагрузится)
Необходимо собирать все вакансии, в которых указан номер телефона работодателя, вакансии без контактов не нужны
Нужно предусмотреть список с id вакансий, которые мы уже собрали, чтобы повторно не собирать вакансии с теми же id. Так мы снизим количество запросов и вероятность блокировки нашего ip
Каждая вакансия, должна быть отправлена вебхуком сразу после того, как мы получили по ней данные. Вебхуки должны отправляться постоянно, перед вебхуком поставить паузу в 2 секунды. Логика такая: спарсили вакансию, пауза 1 секунду, отправили вебхук, спарсили следующую вакансию.
Всего нужно отправить 2 вебхука по каждой вакансии:
Первый
Адрес: https://cloud.roistat.com/integration/webhook?key=a58c86c38a259de63562d533d7c7edf4
Данные:
{"title":"Название вакансии","name":"Имя контакта","email":"email контакта","phone":"телефон контакта","comment":"ссылка на вакансию","roistat_visit":"название сайта (например joblab.ru)","fields":{"site":"название сайта (например joblab.ru)","source":"название сайта (например joblab.ru)","promocode":null}}
Второй
Адрес: https://c6ce863bb1eb.vps.myjino.ru/contacts?apiKey=Wy7RXAzSRZpD4a3q
Данные:
{"source":"название сайта (например joblab.ru)","name": "Имя контакта","email":"email контакта","phone":"телефон контакта","data":"ссылка на вакансию;Имя контакта;email контакта;телефон контакта;Адрес вакансии или город"}
Необходимо, чтобы парсер работал без остановки, собирая новые данные с сайта. Когда он пройдет по всем объявлениям на сайте - необходимо собирать заново. Парсер должен работать круглые сутки и собирать все обновленные данные на сайте.
Также важно, чтобы парсер собирал все данные, не пропуская ни одной страницы с объявлением. Поэтому нужно сделать запросы или регулярные выражения максимально надежными
Чтобы собрать все данные возможно потребуется сгенерировать ссылки на выдачу с различными фильтрами так как по одному фильтру как правило доступно ограниченное количество вакансий. Но нам необходимо, чтобы собирались объявления по всей России, в каждом городе. На текущий момент работает логика, когда в отдельном списке присутствует множество ссылок на поисковые выдачи с различными параметрами, парсер собирает по всем данные, удаляя дубли.