Парсер поисковой выдачи и сайтов

Сергей13 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

26.10.2016

Здравствуйте! Нужен парсер выдачи и сайтов, который будет уметь парсить поисковую выдачу по заданным ключевым словам (Яндекс с возможностью указания региона и Google) и собирать на "спарсенных" сайтах информацию по:

1. Наличию сайтов в Яндекс.Каталоге и DMOZ.

2. Значению ТИЦ.

3. Вхождению ключевого слова в контент страницы: прямые вхождения, морфологические, общие.

4. Объему основного текста: в символах, слова, пассажах (предложениях).

5. Наличию мета-тегов keywords и description.

6. Количеству тегов h1-h4.

7. Картинок.

8. Видео.

9. Маркированных и/или нумерованных списков.

10. Длина title. Наличие в title прямого или морфологического вхождения ключевого слова.

11. Рейтинг страницы (домена) по данным Ahrefs.

12. Количество проиндексированных страниц в Яндекс/Google.

13. Первая дата упоминания в веб-архиве.

14. Количество упоминаний в Яндексе.

15. Alexa rank.

16. Количество исходящих ссылок по linkpad.

17. Наличие внутренних ссылок, их количество, наличие у ссылок тега title.

Десктопный или серверный вариант без предпочтения. Главное, чтобы программа умела:

- приостанавливать и продолжать сбор данных (даже при закрытии программы, при отключении интернета или при обрыве сервера, работа продолжается с последнего удачного места);

- экспорт в excel или парсинг сразу в него;

- возможность работы с прокси и/или антикапчей;

- не учитывать историю поиска (функция в Яндексе);

- исключать из парсинга внутренние сервисы поисковых систем (Маркет, Карты, Картинки, Видео и так далее);

- индикатор работы скрипта с предположительным временем окончания и/или в процентах;

- выбор парсинга определенных данных (например, только ТИЦ или процент вхождения);

- очистка исходного кода анализируемых сайтов при парсинге от сквозных элементов (шапка, футер и так далее), от тегов (классы, id) и скриптов.

Жду ваши предложения со стоимостью написания такого скрипта. Большая просьба отвечать только в этот проект.

Парсинг данных