Парсер url со всего сайта (php, MySQl or Ruby)

Алексей12 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
21.12.2013

Возможно написание на php или Ruby

1. по указанному url-у обойти весь сайт и собрать все ссылки

2. сгенерировать отчет: количество обойденных страниц, количество уникальных ссылок

3. записать все адреса в БД

Условия:

1. бот не должен выходить за рамки указанного домена

2. код должен быть с комментариями (можно на русском)

3. собирать все ссылки, как относительные так и абсолютные (href=”http://test1.ru/111” и href=”111” и др варианты)

4. не учитывать якорные ссылки

5. не учитывать ссылки вида href="javascript:

6. в БД писать только уникальные ссылки без домена

7. многопоточность

8. не заходить на страницы и/или не записывать в БД, которые запрещены в robots.txt (если включена функция в настройках)

9. во время выполнения скрипта отображать процесс в брайзере

10. использовать сторонних библиотеки и фреймворков запрещено

11. игнорировать содержимое

Настройки

• Количество потоков

• не заходить на страницы запрещенные в robots.txt

• не записывать в БД страницы запрещенные в robots.txt

• лимит на количество найденных страниц

• лимит на количество найденных url

• игнорировать ссылки на файлы с расширение (список задается)

• игнорировать содержимое (да, нет)

• игнорировать ссылки с параметром "nofollow" (да, нет)

• игнорировать страницы с (да, нет)

• игнорировать страницы с (да, нет)

БД

CREATE TABLE IF NOT EXISTS `donor` (

`donor_id` int(11) NOT NULL AUTO_INCREMENT,

`donor_url` varchar(120) NOT NULL,

`donor_date` date NOT NULL,

PRIMARY KEY (`donor_id`),

UNIQUE KEY `donor_url` (`donor_url`)

) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;

ОТ ВАС ЖДУ

Цена и сроки.