PHP-скрипт для определения частотностей в текстах сайтов

Сергей14 років у сервісі

Дані замовника будуть вам доступні після подання заявки

20.05.2016

Если в двух словах, есть необходимость сделать несколько модулей. Логика системы примерно следующая:

  1. Вбивается массив ключевых слов 

2. Система делает запросы к Яндексу по XML, получает топ10 (готовый модуль есть)

 3. Получает контент каждого сайта.

 4. Убирает технические тэги, оставляет только текст.

 5. Переводит каждое слово в значение массива. Приводит каждое из слов в инфинитив/единственное число.  (готовая библиотека есть)

6. Определяет частотность каждого слова внутри текста

 7. Определяет частые словосочетания (би, три, n-граммы), их частотность внутри текста 

8. Выводит медиану значений по всем 10 сайтам. Таблицу с самыми частыми словами, словосочетаниями и количество их повторений.  

Повторяет 2-8 по крону растянуто во времени в течение дня, чтобы снизить нагрузку на сервер.