Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Итак, на входе 2 csv файла с нным кол-вом столбцов, разделенные запятыми или точка с запятой,

1 input file — основной

2 input file — дополнительный

Программа берет поочередно, сначала первую фразу из 1 input file из столбца PhraseYD и плюс к ней ВЕСЬ набор фраз из 2 input file. Проверяет на морфологическое совпадение (слова, слову, словам). Если все остальные из 2 input file определены как морфологические дубли, то они помечаются как Yes в столбце csv DoubleYD, потом отправляет так же следующую фразу из 1 input file. И так далее.

Это функция поиска дублей между 2мя файлами. Вторая функция — поиск дублей внутри одного файла по этому же принципу, первая фраза сравнивается с последующими, потом вторая фраза с последующими.

Объем большой, скорость важна.

Нужно использовать морфологию Яндекс mystem http://company.yandex.ru/technologies/mystem

Плюс должен быть файл с минус словами в папке со программой, будет подгружаться при загрузке.

12 лет назад
rabotareferat
Сергей 
43 годаРоссия
16 лет в сервисе
Был
11 лет назад
181 отзыв(-2)
Выбранный исполнитель
petdim
51 годУкраина
16 лет в сервисе
Был
3 года назад
12 лет назад
$20
1 день