PHP-скрипт для определения частотностей в текстах сайтов
Если в двух словах, есть необходимость сделать несколько модулей. Логика системы примерно следующая:
1. Вбивается массив ключевых слов
2. Система делает запросы к Яндексу по XML, получает топ10 (готовый модуль есть)
3. Получает контент каждого сайта.
4. Убирает технические тэги, оставляет только текст.
5. Переводит каждое слово в значение массива. Приводит каждое из слов в инфинитив/единственное число. (готовая библиотека есть)
6. Определяет частотность каждого слова внутри текста
7. Определяет частые словосочетания (би, три, n-граммы), их частотность внутри текста
8. Выводит медиану значений по всем 10 сайтам. Таблицу с самыми частыми словами, словосочетаниями и количество их повторений.
Повторяет 2-8 по крону растянуто во времени в течение дня, чтобы снизить нагрузку на сервер.