Поиск дубликатов статей в Интернет

Александр14 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
27.02.2011

Предполагается использовать:

PHP+Google Custom Search API

Возможно рассмотрение других вариантов.

Необходим PHP скрипт, который используя Google Custom Search API находит и выдает список URL с копиями текста, расположенного по указанному URL.

Входящие данные:

1. URL источника текста.

2. список URL, которые исключаются из поиска.

3. Минимальный процент соответствия оригинала копии.

4. Длина шингла для поиска дублей.

На выходе список:

1. URL

2. %

3. Наличие обратной ссылки на сайт источника (домен URL источника)

4. Наличие nofollow в обратной ссылке

5. Вхождение обратной ссылки в noindex теги.

Подробности после принципиального согласия на разработку.