PHP парсер выдачи Яндекса и подсчет вхождений фраз и слов

Веб-программированиеЗакрыт5 заявок187 просмотров

Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Нужен скрипт, который по заданным поисковым запросам будет собирать данные из топ 10 выдачи яндекса. Здесь важно выполнять поиск по региону "Москва". Скрипту подается два списка фраз. Парсить выдачу нужно только по первому списку.

Собрать нужно следующее:

- среднее значение размера текста без пробелов по каждой фразе из списка 1

- подсчитать среднее точное вхождение запросов в текст по каждой фразе из списка 1

- подсчитать среднее разбавочное вхождение запросов в текст по каждой фразе из списка 1

- подсчитать среднее точное вхождение запросов в текст по каждой фразе из списка 2

- подсчитать среднее разбавочное вхождение запросов в текст по каждой фразе из списка 2

- подсчитать среднее количество каждого слова из фраз, учитывая уже подсчитаные до этого фразы

- подсчитать среднее количество каждого слова с изменением окончания из фраз, учитывая уже подсчитаные до этого фразы

Разбавочные вхождения фраз - это фразы, в словах которых изменены окончания, или со вставкой дополнительных слов. Например есть фраза "аллергический дерматит у детей". Следующие найдены фразы будут считаться как разбавочные вхождения:

"аллергического дерматита у детей" - здесь изменены окончания у первых двух слов

"аллергический дерматит встречается у детей" - здесь добавлено слово "встречается"

"аллергический контактный дерматит у детей" - здесь добавлено слово "контактный"

Для себя я вижу примерно следующий алгоритм.

В HTML форму кидаем два списка запросов. Например список 1:

аллергический дерматит у детей

лечение аллергического дерматита у детей

аллергический дерматит у ребенка

лечение аллергического дерматита у детей

аллергический дерматит у детей симптомы

аллергический дерматит у грудных детей

чем лечить аллергический дерматит у детей

и список 2:

аллергический дерматит

дерматит у детей

дерматит у ребенка

лечить аллергический дерматит

1) Из наших запросов отдельно выдераем все слова, без повторов и сохраняем их в списке 3. Предлоги и союзы не нужны.

2) Скрипт парсит выдачу топ 10 из яндекса по каждому запросу только из списка 1.

3) Далее из полученых всех страниц (в даном случае - 70) нужно получить только текст, без символов заключенных между угловыми скобками ).

4) Далее из обработаных полученых текстов нужно получить:

- среднее количество символов без пробелов (из всех полученых текстов)

- среднее количество точных вхождений для каждой фразы из списка 1; затем удаляем эти фразы из текста, чтобы они потом не мешали при следующих подсчетах фраз и слов

- среднее количество разбавочных вхождений для каждой фразы из списка 1; затем удаляем эти фразы из текста

- среднее количество точных вхождений для каждой фразы из списка 2; затем удаляем эти фразы из текста

- среднее количество разбавочных вхождений для каждой фразы из списка 2; затем удаляем эти фразы из текста

- среднее количество каждого слова из списка 3

Скрипт должен поддерживать работу через список прокси. Если прокси не указаны в настройках, тогда использовать локальный ip.

При парсинке выдачи яндекса, возможно появление капчи. Нужно вводить ее вручную, либо через сервис antigate.com, если это указано в настройках скрипта.

PHP HTML

9 лет назад

Алексей

39 летРоссия

13 лет в сервисе

Был

3 года назад

1 отзыв

Похожие заказы
Крупный высоконагруженный проект на Python/Django
Нужно взять работу над интересным проектом, предполагающим высокую нагрузку и работу с большим количеством данных, полнотекстовым поиском. Для успешных кандидатов обязательно: 1. Уверенное знание: Django 1.7 JavaScript (jQuery, желательно AngularJS) Celery (лучше RQ) PostgreSQL (понимание, как работать в высоконагруженных проектах с ...
Javascript Python PostgreSQL MongoDB jQuery Linux Nginx Ubuntu Django Docker Redis
Веб-программирование2 заявки
Закрыт
9 лет назад
PHP программирст для правок сайта
Ищу адекватного PHP программиста для внесения пару поправок на интерфейс сайта. Движок сайта - самописный, но все понятно сделано. подробности при общения.
PHP
Веб-программирование10 заявок
Закрыт
9 лет назад
Работа над сайтом OpenCart
$150
Работа над сайтом OpenCart, доработка модулей, перенос контента, работа срочная требуется сегодня закончить. Оплата 150$ по факту готовности, кого НЕ устраивает просьба не спамить.
OpenCart
Веб-программирование3 заявки
Закрыт
9 лет назад
Ошибка при отправке формы заявки
Добрый день! Есть сайт http://www.aquarai.ru/ После заполнения "Простой" формы заявки и нажатии на кнопку "Отправить" висит мелкая надпись "Отправляем..." и все http://joxi.ru/brR8PD1s7qGD21 И не понятно уходит заявка или нет. Можно ли настроить ее, чтобы, к примеру табличка выскакивала "Ваша ...
DLE
Веб-программирование1 исполнитель
Завершен
9 лет назад
Добавить всплывающее окно (Оформить заявку) +селект.
$50
Движок VamShop - Интернет магазин. Нужно за место корзины поставить "оформить заявку" настроить кнопку и селект -(он будет дублироваться с поиска на сайте)
Веб-программирование2 заявки
Закрыт
9 лет назад
DLE 10.3 скрипт 301 редиректа (скписок старых и новых урл)
Здравствуйте DLE 10.3 utf-8 возникла задача. есть большой список урл старого сайта, нужно сделать 301 редирект на новые страницы (точечно, т.е. 1 урл только на 1 другой урл, а не весь каталог редиректнуть) у меня в экселе есть 2 ...
PHP DLE Excel
Веб-программированиенет заявок
Закрыт
9 лет назад
Скрипт: по названию города доставать картинку из images.google.com
$25
Есть база данных городов, пример списка для Франции см. ниже Необходимо для каждого города достать топ3 картинки из images.google.com. По результатам скрипт сгенерирует простой html с названиями городов и картинками (с указанием разрешения) — по 20 ...
HTML CSS
Веб-программирование2 заявки
Закрыт
9 лет назад
Функционал "Диеты" для сайта (PHP+MYSQL+HTML+JS)
$700
Необходимо реализовать функцонал "Диеты" для сайта. Техническое задание во вложении Движок - основа ShopCMS, с API на YII. Требования по знаниям также во вложении. Обязателен богатый опыт(в том числе и с GIT)
PHP Javascript MySQL HTML Yii Git
Веб-программирование4 заявки
Закрыт
9 лет назад
Доработать сайт на вордпресс
Необходимо доработать уже почти сделанный сайт на вордпрессе (все программирование и верстка уже есть). Работы не очень много, но после установки этих обновлений сразу пойдет другая работа по этому сайту, так что хотелось бы найти ...
WordPress
Веб-программирование8 заявок
Закрыт
9 лет назад
Доработки сделать по сайту самописанный сайт
Доработки сделать по сайту самописанный сайт задание в приложение от вас жду сроки и бюджет реализаций проекта
Веб-программированиенет заявок
Закрыт
9 лет назад