Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Необходимо написать парсер номеров телефонов а также других данных ( Область,Город,Район,Категория,под категории,,Имя,Заголовок,Описание,Цена,Дата объявления,Номер объявления,URL объявления,В топе?) с сайта OLX.UAПарсер должен уметь :1) Парсить и сохранять в Excell данные с объявления сайт olx.ua ( Тлефоны, Область,Город,Район,Категория,подкатегории,,Имя,Заголовок,Описание,Цена,Дата обьявления,Номер объявления,URL объявления,В топе?) 2) Иметь возможность меню установки выбора заданий для парсинга : по городу, области, району,  категории , под категории, частное или бизнес обьявление, в топе или нет, по цене от и до. Также должна быть возможность сбора по конкретно указанной ссылке в рамках сайта olx.ua3) Данные должны  сохраняться следующием формате : Отдельно файлы ( частное и бизнес), отдельно с отсеиванием дублей по телефон и без . НАПРИМЕР собираем город Луцк Частные , на выходе должны получить в папке "Луцк далее папка - ЧАСТНЫЕ -  далее папка 06.01.2020" (папки создаются автоматически)  . В  последней папке "06.01.2020" файлы всех основных категорий по отдельности ( детский мир, недвижимость ,транспорт и т.д БЕЗ дублей телефонов, и файлы с  общим количеством по городу  с дублями и файл без дублей.ПРИМЕР НАЗВАНИЯ ФАЙЛОВназвание файла 24.12.18.06.09 - WD (21620) - Волынская обл - Луцк Ч  ( дата, WD - без дублей номеров телефонов, количество , область ,город, Ч-частные)название файла 24.12.18.06.09 - WD (521620) - Волынская обл - Луцк Б  ( дата, отсутствие WD обозначает что файл с дублями номеров телефонов, количество , область ,город, Б-бизнес)4) Во время парсинга должен быть виден тулбар с информацией сколько процентов задачи выполнено уже, сколько объявлений уже собрано , сколько осталось5) Должна быть возможность сбора ВСЕХ или почти всех 95%-100% объявлений заданного города ( максимум можно за 1 запрос увидеть 500 страниц, поэтому в фоне работы программы при необходимости  запросы автоматом должны разбиваться на более мелкие для достижения цели, например надо собрать Харьков Ленинский район там 100 тысяч объявлений (2000 страниц) , в фоне парсер разбивает его на более мелкие задачи или по цене или по категориям подкатегориям, не важно как, главное чтобы на выходе мы получили 100 тысяч объявлений).6) Парсер должен иметь возмодность работать с несколькими потоками ( прокси) для увеличения скорости сбора, прокси вносятся в txt файл (по определенному шаблону) в парсере указывается путь к файлу.7) Скорость парсинга на 1 поток не менее 10000 объявлений в час ( при работе core i7, 16гб ОЗУ), или 50000 объявлений час (10-15 потоков). 

8) Перед выдачей парсера разработчику необходимо протестировать сбор не менее 100 тысяч объявлений ( 1 средний город) и сравнить количество выданных результатов ( количество) с тем что пишет сайт, оно должно совпадать .

9. Ниже прилагаю скрины парсера который у меня был ранее ( сейчас по неизвестным причинам не работает, с разаработчиком связь утеряна).

4 года назад
romax777
37 летУкраина
5 лет в сервисе
Был
год назад