Поиск дубликатов статей в Интернет
Александр14 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
27.02.2011
Предполагается использовать:
PHP+Google Custom Search API
Возможно рассмотрение других вариантов.
Необходим PHP скрипт, который используя Google Custom Search API находит и выдает список URL с копиями текста, расположенного по указанному URL.
Входящие данные:
1. URL источника текста.
2. список URL, которые исключаются из поиска.
3. Минимальный процент соответствия оригинала копии.
4. Длина шингла для поиска дублей.
На выходе список:
1. URL
2. %
3. Наличие обратной ссылки на сайт источника (домен URL источника)
4. Наличие nofollow в обратной ссылке
5. Вхождение обратной ссылки в noindex теги.
Подробности после принципиального согласия на разработку.