Парсер url со всего сайта (php, MySQl or Ruby)
Возможно написание на php или Ruby
1. по указанному url-у обойти весь сайт и собрать все ссылки
2. сгенерировать отчет: количество обойденных страниц, количество уникальных ссылок
3. записать все адреса в БД
Условия:
1. бот не должен выходить за рамки указанного домена
2. код должен быть с комментариями (можно на русском)
3. собирать все ссылки, как относительные так и абсолютные (href=”http://test1.ru/111” и href=”111” и др варианты)
4. не учитывать якорные ссылки
5. не учитывать ссылки вида href="javascript:
6. в БД писать только уникальные ссылки без домена
7. многопоточность
8. не заходить на страницы и/или не записывать в БД, которые запрещены в robots.txt (если включена функция в настройках)
9. во время выполнения скрипта отображать процесс в брайзере
10. использовать сторонних библиотеки и фреймворков запрещено
11. игнорировать содержимое
Настройки
• Количество потоков
• не заходить на страницы запрещенные в robots.txt
• не записывать в БД страницы запрещенные в robots.txt
• лимит на количество найденных страниц
• лимит на количество найденных url
• игнорировать ссылки на файлы с расширение (список задается)
• игнорировать содержимое (да, нет)
• игнорировать ссылки с параметром "nofollow" (да, нет)
• игнорировать страницы с (да, нет)
• игнорировать страницы с (да, нет)
БД
CREATE TABLE IF NOT EXISTS `donor` (
`donor_id` int(11) NOT NULL AUTO_INCREMENT,
`donor_url` varchar(120) NOT NULL,
`donor_date` date NOT NULL,
PRIMARY KEY (`donor_id`),
UNIQUE KEY `donor_url` (`donor_url`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8 AUTO_INCREMENT=1 ;
ОТ ВАС ЖДУ
Цена и сроки.