Парсер и анализатор выдачи Яндекс, Google
Требуется скрипт с несложным web-интерфейсом со следующими функцией парсинга выдачи Яндекса ТОП-10, ТОП-20, ТОП-30, ТОП-40 и анализ выдачи. Анализ должен проводиться внутри ТОП'ов, а так же усредненных показателей ТОП'а между собой.
Параметры анализа ТОП поисковых систем (выводится таблица по каждому сайту и среднее)
- Количество найденных страниц по запросу
- Главная / не главная страница
- Возраст домена / сайта в днях
- ТИЦ сайта
- Число посетителей в день/мес/год, если эти сведения доступны
- Наличие в Яндекс.Каталоге
- CMS (по возможности определение)
- Проиндексировано страниц в Яндексе
- Динамическая / статическая страница
- Длина страницы всего / длина информационной статьи (если её можно выделить из общего объема текста) в символах с пробелами и без
- Количество картинок в статье
- Всего внешних ссылок на сайт
- Всего внешних ссылок на эту страницу
- Всего внутренних ссылок на эту страницу / в т.ч. с анкором в виде вхождения ключевой фразы
- Количество внутренних ссылок на другие страницы сайта
- Количество точных вхождений ключевой фразы и отдельных её частей
- Количество неточных вхождений ключевой фразы и отдельных её частей
- Количество точных вхождений слов из ключевой фразы (те, что не вошли в 10 и 11)
- Количество неточных вхождений слов из ключевой фразы (те, что не вошли в 10 и 11)
- Количество точных и неточных вхождений ключевой фразы всего по сайту
- Количество точных и неточных вхождений в title / description / keywords
- Количество точных и неточных вхождений в тэге в параметрах alt="????" и title="????"
- Количество точных и неточных вхождений в title главной страницы (если в топе не главная)
- Оценка сайта по различным рейтингам (alexa rank и т.п.)
Дополнительные поля таблицы:
- Вычисляемое поле релевантности таблицы, формула задается отдельно
Дополнительные функции:
- Выгрузка результатов в xls или csv формат
- Пакетная обработка списка ключевых фраз, вставляемых в текстовое поле из буфера обмена либо загружаемых из csv файла.
- Взаимодействие с основными антикапчами antigate, ripcatpcha и другие
- Желательно возможность работы с proxy серверами (для скрытия от яндекса) либо яндекс.xml