Программа\скрипт для Поиска дублей
Итак, на входе 2 csv файла с нным кол-вом столбцов, разделенные запятыми или точка с запятой,
1 input file — основной
2 input file — дополнительный
Программа берет поочередно, сначала первую фразу из 1 input file из столбца PhraseYD и плюс к ней ВЕСЬ набор фраз из 2 input file. Проверяет на морфологическое совпадение (слова, слову, словам). Если все остальные из 2 input file определены как морфологические дубли, то они помечаются как Yes в столбце csv DoubleYD, потом отправляет так же следующую фразу из 1 input file. И так далее.
Это функция поиска дублей между 2мя файлами. Вторая функция — поиск дублей внутри одного файла по этому же принципу, первая фраза сравнивается с последующими, потом вторая фраза с последующими.
Объем большой, скорость важна.
Нужно использовать морфологию Яндекс mystem http://company.yandex.ru/technologies/mystem
Плюс должен быть файл с минус словами в папке со программой, будет подгружаться при загрузке.