Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Необходимо создать исходную базу данных (БД), содержащую фрагменты текста на русском языке (1 фрагмент - до 10-15 строк). Фрагменты хранятся в БД совместно с дополнительными служебными полями. (Как я понимаю Тупо одна таблица с двумя полями)

Программа, по ниже приведенному описанию алгоритма, должна сравнить фрагменты введенного в поле запроса текста (не слова а именно текста, предполагается 1-2 предложения) с текстами хранящимися в БД и выдать результаты сравнения.

Алгоритм:

Для каждого десятисловия текста рассчитывается контрольная сумма (шингл). Десятисловия идут внахлест, с перекрытием, так, чтобы ни одно не пропало. А затем из всего множества контрольных сумм (очевидно, что их столько же, сколько слов в документе минус 9) отбираются только те, которые делятся на, скажем, 25. Поскольку значения контрольных сумм распределены равномерно, критерий выборки никак не привязан к особенностям текста. Ясно, что повтор даже одного десятисловия – весомый признак дублирования, если же их много, скажем, больше половины, то с определенной (несложно оценить вероятность) уверенностью можно утверждать: копия найдена! Ведь один совпавший шингл в выборке соответствует примерно 25 совпавшим десятисловиям в полном тексте!

Нужно: Соответственно рабочую программку с удобным интерфейсом и наглядным предоставлением результатов поиска. (Возможность добавлять текст в БД, можно не из программы, ) исходный код и подробный алгоритм работы программы (не только алгоритма поиска, а полностью), можно от руки.

Среда разработки: Delphi

СУБД: не имеет значения

16 лет назад
testov
NaN лет
17 лет в сервисе
Был
16 лет назад
  • Похожие заказы
  • $500

    Выполнение разовых работ по доработке конфигураций 1С версиий 7.7 , 8.0, 8.1. Требуется оптимальное соотношение опыта работы/стоимости часа работы. Оценка объема должна производиться приближенно к методикам оценки объемов работ фирмы 1С. Оценка производится в часах общая сумма ...

    Закрыт
    16 лет назад
  • нужна программа-постер данных... работа через SLL и сокс..нужен опытный программер..есть формат данных..программа берет его и по указанному урлу идет вводит логин пароль постит нужное через сокс..чистит куку и так далее

    Закрыт
    16 лет назад
  • $250

    Нужно написать программу, управляющую Eyebeam. Это софтфон т.е. программа позволяющая звонить с одного компа на другой или с компьютера на городской телефон. (Подобие Skype) необходимо сделать чтобы - по щелчку на нужном абоненте автоматически набирался его ...

    Закрыт
    16 лет назад
  • $50

    Необходимы решения следующих задач: 1) График кривой в 3D и перемещение кривой в пространстве (задается изменение по x, y, z) 2) Отображение трех фигур в ЗD (куб, шар, конус) и подвижный источник света

    Прикладное ПО1 исполнитель
    Закрыт
    16 лет назад
  • тех.задание в приложении. Если оставляете предложение - ОБЯЗАТЕЛЬНО УКАЗЫВАЙТЕ СТОИМОСТЬ.

    Прикладное ПО2 исполнителя
    Завершен
    16 лет назад
  • $5

    Нужно заменить функцию qsort на более быструю (не меньше чем в 10 раз). Язык С. Есть массив из M (например, 1000) элементов, нужно найти n (например, 400) элементов с наибольшими значениями. Важна сортировка только тех элементов, ...

    Закрыт
    16 лет назад
  • Тонкость такая - клиентский модуль формирование суммы делает на "сервере" - простейшей программе, принимающей суммы и количество, готовящей ответ. 1. вводится строка товара - название, кол-во, цена 2. если еще есть, то п.1 повторяется 3. нажимаем кнопку сформировать 4. ...

    Прикладное ПО1 исполнитель
    Закрыт
    16 лет назад