PHP cкрипт для поиска релевантных текстов к заданному тексту
Требуется сделать PHP cкрипт для поиска релевантных текстов к заданному тексту.
Поиск должен выполняться максимально быстро.
Рассмотрим также альтернативные против PHP решения.
Имеется примерно 450.000 текстов на различных языках, из различных блогов, в кодировке UTF8, каждый текст в среднем 1000 знаков.
Поиск релевантных текстов к заданному тексту должен выполняться в пределах каждого из языков по отдельности.
Например:
взяли текст на английском языке, и под него ищем релевантные тексты также на английском языке;
взяли текст на итальянском языке, и под него ищем релевантные тексты также на итальянском языке;
...
и т.д.
Как выглядят тексты, среди которых нужно проводить поиск?
Наши парсеры собирают тексты по всему Интернету и на всех языках. Перед сохранением в базу каждый текст очищается от "мусора", и если "после очистки" длина текста превышает 500 знаков, то такой текст заносится в нашу базу, основаную на mongodb. Под "мусором" понимается всё, что не является простым текстом (стили, картинки, хтмл-тэги и т.д.).
Чтобы увидеть такой текст, откройте любой сайт блога или любой новоствной портал, и взгляните на текст полной новости.
Все тексты сохранены в mongodb базе данных.
Нет ограничений по оборудованию.
Если это необходимо, то можно прибегнуть к помощи сторонних программ/скриптов/приложений, если Вы опишите такую необходимость.
Ваше предложение будет принято, если Вы не только предложите свой разумный концепт/метод поиска, но также сможете его реализовать на практике.
Оплата сдельная, договорная.
Дальнейшая информация через скайп.
Ник скайп'а в профиле.