Требуется разработка скрипта для MySQL БД
Интернет-магазину "Обвал Цен" требуется помощь серьезного разработчика с большим опытом работы с базами данных. Наши карточки товаров импортируются со стороннего ресурса, а затем проходят автоматическую прогонку через машинный перевод Промт.
Чтобы улучшить качество текстов, мы хотим ввести новый скрипт, который позволял бы заменять определенные словосочетания при переводе в Промте на наш вариант. Для этого в первую очередь нужно, чтобы скрипт находил по задаваемым нами параметрам словосочетания. При повторном использовании скрипт должен учитывать минус-словосочетания, то есть те слова и фразы, которые уже были найдены в предыдущий раз и отмечены как переведенные.
В целом алгоритм требуемых действий должен выглядеть так :
1. Сканирование большого объема текстовой информации по частотности нахождения словосочетаний в тексте. Нужно, чтобы можно было задавать параметр фильтруемых словосочетаний по количеству включаемых при поиске слов. Например, от 2 до 5 слов или от 2 до 4, где 1 слово - идущие подряд буквенные или числовые значения без пробела.
2. Выгрузка найденных топ словосочетаний в Excel файл
3. Учет списка слов или словосочетаний, которые не нужно учитывать при следующей фильтрации текста
Размеры обрабатываемых данных: очень большие, текстовый файл txt весит больше 50МБ
Формат скрипта: желательно PHP
Тип базы данных:MySQL
Сроки работы: 1-3 дня