Проверка уникальности текстов
требуется написать скрипт (perl, php) для проверки текстов на уникальность
по качеству проверок - аналог http://www.content-watch.ru/text/ или http://text.ru/text_check
веб интерфейс не обязателен, достаточно чтобы тексты забирались из базы и им присваивался % уникальности
скрипт должен проверять уникальность текста во всем интернете
для этого берется исходный текст, нормализуется, разбивается на шинглы (по 5 фраз например) и с ними делается несколько запросов к яндексу (сначала для приблизительной оценки подходящих документов) потом скачиваются из кеша яндекса наиболее похожие страницы и проверяются уже более глубоко, для того чтобы делать к яндексу большое количество запросов — используются прокси сервера
пожалуйста в заявке указывайте сроки и цены