Антиплагиат по базе данных
ТЗ:
Написать простой алгоритм сравнения и поиска копий по базе текстов (антиплагиат). Поиск по интернету реализовывать нет необходимости. Реализация нужна на сервере в формате телеграм бота
Возможности бота: формирование базы текстов для сравнения, пополнение базы текстов, редактирование базы (для администратора). Проверка уникальности текста, личный кабинет (для пользователя)
Реализация: на вход подается текст в формате .txt или .pdf, на выходе программа должна выдать процент уникальности (мы с вами определим наиболее адекватные параметры в процессе работы, так как это немного отличается от классического антиплагиата). Кроме процента уникальности программа выдаст ссылки на документы, откуда были заимствования с указанием страницы
Алгоритм: после изучения алгоритмов антиплагиата пришел к выводу, что чаще всего используется алгоритм разбивки текста/предложений на шинглы (маленькие отрезки из нескольких слов, которые накладываются друг на друга), которые в дальнейшем переводятся в хэш и формируют уникальный отпечаток документа. После обработки документов их можно сравнивать
Выше мои предположения по поводу алгоритма после изучения работы антиплагиатов, буду рад услышать ваши мнения по этому поводу, а также другие, более эффективные реализации
Заявки фрилансеров

