Написать скрипт улуч.качество машинного перевода
Интернет-магазину требуется помощь серьезного разработчика с большим опытом работы с базами данных. Наши карточки товаров импортируются со стороннего ресурса, а затем проходят автоматическую прогонку через машинный перевод.
Чтобы улучшить качество текстов, мы хотим ввести новый скрипт, который позволял бы отфильтровывать текст на самые частотные словосочетания.. Для этого в первую очередь нужно, чтобы скрипт находил по заданным нами параметрам словосочетания. При повторном использовании скрипт должен исключать из поиска уже найденные в предыдущем поиске словосочетания.
В целом алгоритм требуемых действий должен выглядеть так :
1. Сканирование большого объема информации по частотности нахождения повторяющихся словосочетаний в тексте. Нужно, чтобы можно было задавать параметр фильтруемых словосочетаний по количеству включаемых при поиске слов. Например, от 2 до 5 слов или от 2 до 4, где 1 слово - идущие подряд буквенные или числовые значения без пробела.
2. Выгрузка найденных топ словосочетаний в Excel файл с ранжированием по частотности нахождения в тексте.
3. Учет списка слов или словосочетаний, которые не нужно учитывать при следующей фильтрации текста. Т.е. возможность добавления исключений для дальнейших сканирований.
Размеры обрабатываемых данных: очень большие, текстовый файл txt весит больше 50МБ
Формат скрипта: желательно PHP
Тип базы данных:MySQL
Сроки работы: 1-3 дня
Оплата: после выполнения и одобрения заказчиком, можно на карту банка или на электронный кошелек.