Система сбора контента с сайтов.

Сергей19 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

25.04.2006

Дорогие друзья, здравствуйте! В очередной раз вынужден прибегнуть к Вашей помощи :) Нужно написать один скриптик, который позволит собирать контент с других сайтов.

ТЗ в подробной инфой скину в приват. А пока очень кратенько расскажу о сути разработки:

- у нас есть урл, к примеру возьмем сайт http://www.homebusiness.ru/ тут я бы хотел отграбать текстовую информацию с папки http://www.homebusiness.ru/ideas/. Откроем http://www.homebusiness.ru/ideas/1140.htm и http://www.homebusiness.ru/ideas/1143.htm и ищем одинкаковые теги вверху и нузу страниц для того что бы отделить нужный текст:

верх:

ТЕМА СЕЗОНА:

"Пьяный велосипед" или 14650 рублей за один день

низ:

а все что между этими тегами просто грабаем :)

- т.к. я не знаю кол-во всех урлов необходимо написать спайдер который будет готовить список ссылок для грабанья. Спайдер должен гулять только по заданной папке, по всему домену, и по всему домену и субдоменам этого домена.

- т.к. робот не может быть идеальным должны быть какие то функции администрирования: это удаление или редактирование текстов

- ну и т.к. некоторые сайты бывают очень большими надо подумать о многопоточности.

Вот и усе. Жду Ваших предложений!