Написать систему парсинга (сайт olx.ua). Laravel, PHP, sleeping_owl
Нужно написать несколько скриптов для парсинга объявлений.
Сайт-основа на Laravel, но это не очень принципиально, пойдет и на чистом ПХП.
Краткое описание задачи:
Есть входные значения от пользователя - это ссылка на лист объявлений,
и список полей которые надо парсить в каждом объявлении.
Каждый пользователь сам задает что ему парсить - эта часть уже готова, вашим скриптам приходят уже заданные значения.
Скрипты заточены под парсинг мобильной версии olx.ua.
Скрипты будут запускаться по крону, независимо друг от друга.
Структура таблиц обсуждается.
Краткое описание:
Скрипт 1: Прохожу по листу урлов, выбираю со страницы ссылки на объявления. Проверяю url на наличие в бд, отсутствующие урлы записываю.
Скрипт 2: Прохожу по каждому урлу, получаю контент страницы и номер телефона (в 2 захода, это 2 разные страницы).
Скрипт 3: Захожу в каждую объяву, разбираю ее по запросу, пишу результат в JSON сохраняю в бд.
Подробное ТЗ со структурой таблиц прилагаю здесь (чтоб не засорять страничку):
PS. Скрипт получающий страницу (каждый раз с новым юзерагентом и прокси для обхода защиты) уже есть, и можете это не делать.
Получение страницы вместо file_get_contents( $url ) будет через get_web_page( $url )
Предлагайте сумму и сроки выполнения.