Программа\скрипт для Поиска дублей

Сергей17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
31.03.2012

Итак, на входе 2 csv файла с нным кол-вом столбцов, разделенные запятыми или точка с запятой,

1 input file — основной

2 input file — дополнительный

Программа берет поочередно, сначала первую фразу из 1 input file из столбца PhraseYD и плюс к ней ВЕСЬ набор фраз из 2 input file. Проверяет на морфологическое совпадение (слова, слову, словам). Если все остальные из 2 input file определены как морфологические дубли, то они помечаются как Yes в столбце csv DoubleYD, потом отправляет так же следующую фразу из 1 input file. И так далее.

Это функция поиска дублей между 2мя файлами. Вторая функция — поиск дублей внутри одного файла по этому же принципу, первая фраза сравнивается с последующими, потом вторая фраза с последующими.

Объем большой, скорость важна.

Нужно использовать морфологию Яндекс mystem http://company.yandex.ru/technologies/mystem

Плюс должен быть файл с минус словами в папке со программой, будет подгружаться при загрузке.

Заявки фрилансеров