Парсинг выдачи яндекса и сайтов - интернет-магазинов
Нужен список российских интернет-магазинов, около 50 000 их должно быть. Вот тут есть цифра 39000: http://www.insales.ru/blog/wp-content/uploads/2014/04/InSales_B2C_retail_ecommerce_report_2013.pdf
но это 2013 год. На данный момент я видел где-то цифру в 50 000, но не могу найти ссылку. Но за год, думаю, 10000 магазинов вполне могло открыться.
В результате мне нужна такая таблица:
URL
Контакты из страницы "контакты" - телефон, имейл
Контакты из whois домена
Наименование юрлица или ИП
ИНН
Фактический адрес
Page Rank, ТИЦ
Строка из title главной
Данные из странички "Доставка и оплата" или "доставка":
- есть ли там слова "Почта России" или "Почтой России"
- есть ли там слова "EMS"
- есть ли там слова "пункт выдачи"
- есть ли там слова "наложенный плат(е\ё)ж" или "наложенным платежом"
- есть ли там слова "курьером" или "курьерской службой"
CMS
- Bitrix? (должно быть в исходниках слово "битрикс")
- Insales? (должно быть в сходниках insales)
(другие не интересуют)
Оплата такая:
1. Вы озвучиваете стоимость работ за 50 000 магазинов
2. Если находите меньше, то оплата пропорциональна числу найденных магазинов
Предлагаемый подход к поиску:
Все магазины можно найти по идее через Яндекс. Яндекс выдает максимум 99 страничек, по 10 записей на страничку. Поэтому нужно поделить 50 000 магазинов с помощью различных запросов, например так:
1. Вбиваем в яндекс "доставка и оплата" игрушки - находим 99 страниц магазинов, нужно их
автоматизированно обработать и получить все данные
2. Вбиваем в яндекс "доставка и оплата" -игрушки - находим 99 страниц других интернет магазинов
3. Вбиваем в яндес "доставка и оплата" одежда, потом -одежда - и так далее
Можно добавить георгафическое деление - "доставка и оплата" игрушки ингушетия ... и тд
Т.е. нужно будет наделать таких запросов, чтобы выдача для каждого запроса с одной стороны выдавала интернет магазины, с другой - чтобы выдача каждый раз отличалась.
Предлагаю вам заранее подумать над тем, какие запросы будете использовать. Возможно, у вас будет какой-то другой подход - ну и отлично :)
Перед началом сотрудничества я хочу получить
* осмысленный вопрос какой-нибудь,
* ваши мысли по тому, какие запросы будете использовать
Пишите цены-сроки, пожалуйста.