Парсер данных с сайта
Добрый день.
Нужен парсер на основе одной или нескольких ниже указанных технологий.
Парсер заказывается в связи с сменой движка портала.
Парсер должен работать с сервера centos, желательно быть написанным на php. (обсуждаемо)
headless chrome/phantomjs/casperjs/selenium/chromium (обсуждаемо)
парсер должен делать следующее:
1. Работать с списком прокси. Загружать, обновлять, если не работает – менять прокси.
2. Осуществлять поиск, (через форму поиска портала) по перечню ключевых слов
3. Парсить выдачу. выдача состоит из карточек товара. (до 300-500 товаров).
Нужно разобрать каждую карточку. Разобрать на 3-5 ключевых переменных. + ссылку на подробную информацию о каждом товаре.
Добавить это в базу данных mysql.
Важно:Выдача по ключевому слову динамически подгружается по кнопке "Загрузить еще".
4. Парсить подробную информацию по каждому из товаров по собранной ранее ссылке
(10-15 ключевых переменных),разобрать и записать это в базу данных.
Данная часть должна быть многопоточной 3-5 одновременно работающих потока. Должно парситься
1-2 тыс. товаров за 4-6 часов.
Есть платные прокси.
Есть базы данных от работающего ранее парсера.
Капчи на портале нет.
У вас должен быть опыт разработки аналогичных парсеров.
В работу должна входить отладка и доведение до конечного результата (поддержка в течение 5 дней).
Стоимость обсуждаема. Время выполнения обсуждаемо.
Подробное ТЗ и ссылка на портал по запросу после вашего отклика.