Антиплагиат по базе данных

Дмитрий7 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
30.08.2021

ТЗ:

Написать простой алгоритм сравнения и поиска копий по базе текстов (антиплагиат). Поиск по интернету реализовывать нет необходимости. Реализация нужна на сервере в формате телеграм бота

Возможности бота: формирование базы текстов для сравнения, пополнение базы текстов, редактирование базы (для администратора). Проверка уникальности текста, личный кабинет (для пользователя)

Реализация: на вход подается текст в формате .txt или .pdf, на выходе программа должна выдать процент уникальности (мы с вами определим наиболее адекватные параметры в процессе работы, так как это немного отличается от классического антиплагиата). Кроме процента уникальности программа выдаст ссылки на документы, откуда были заимствования с указанием страницы

Алгоритм: после изучения алгоритмов антиплагиата пришел к выводу, что чаще всего используется алгоритм разбивки текста/предложений на шинглы (маленькие отрезки из нескольких слов, которые накладываются друг на друга), которые в дальнейшем переводятся в хэш и формируют уникальный отпечаток документа. После обработки документов их можно сравнивать

Выше мои предположения по поводу алгоритма после изучения работы антиплагиатов, буду рад услышать ваши мнения по этому поводу, а также другие, более эффективные реализации

Заявки фрилансеров