Парсер поисковой выдачи и сайтов
Здравствуйте! Нужен парсер выдачи и сайтов, который будет уметь парсить поисковую выдачу по заданным ключевым словам (Яндекс с возможностью указания региона и Google) и собирать на "спарсенных" сайтах информацию по:
1. Наличию сайтов в Яндекс.Каталоге и DMOZ.
2. Значению ТИЦ.
3. Вхождению ключевого слова в контент страницы: прямые вхождения, морфологические, общие.
4. Объему основного текста: в символах, слова, пассажах (предложениях).
5. Наличию мета-тегов keywords и description.
6. Количеству тегов h1-h4.
7. Картинок.
8. Видео.
9. Маркированных и/или нумерованных списков.
10. Длина title. Наличие в title прямого или морфологического вхождения ключевого слова.
11. Рейтинг страницы (домена) по данным Ahrefs.
12. Количество проиндексированных страниц в Яндекс/Google.
13. Первая дата упоминания в веб-архиве.
14. Количество упоминаний в Яндексе.
15. Alexa rank.
16. Количество исходящих ссылок по linkpad.
17. Наличие внутренних ссылок, их количество, наличие у ссылок тега title.
Десктопный или серверный вариант без предпочтения. Главное, чтобы программа умела:
- приостанавливать и продолжать сбор данных (даже при закрытии программы, при отключении интернета или при обрыве сервера, работа продолжается с последнего удачного места);
- экспорт в excel или парсинг сразу в него;
- возможность работы с прокси и/или антикапчей;
- не учитывать историю поиска (функция в Яндексе);
- исключать из парсинга внутренние сервисы поисковых систем (Маркет, Карты, Картинки, Видео и так далее);
- индикатор работы скрипта с предположительным временем окончания и/или в процентах;
- выбор парсинга определенных данных (например, только ТИЦ или процент вхождения);
- очистка исходного кода анализируемых сайтов при парсинге от сквозных элементов (шапка, футер и так далее), от тегов (классы, id) и скриптов.
Жду ваши предложения со стоимостью написания такого скрипта. Большая просьба отвечать только в этот проект.