Система сбора контента с сайтов.
Дорогие друзья, здравствуйте! В очередной раз вынужден прибегнуть к Вашей помощи :) Нужно написать один скриптик, который позволит собирать контент с других сайтов.
ТЗ в подробной инфой скину в приват. А пока очень кратенько расскажу о сути разработки:
- у нас есть урл, к примеру возьмем сайт http://www.homebusiness.ru/ тут я бы хотел отграбать текстовую информацию с папки http://www.homebusiness.ru/ideas/. Откроем http://www.homebusiness.ru/ideas/1140.htm и http://www.homebusiness.ru/ideas/1143.htm и ищем одинкаковые теги вверху и нузу страниц для того что бы отделить нужный текст:
верх:
"Пьяный велосипед" или 14650 рублей за один день
низ:
а все что между этими тегами просто грабаем :)
- т.к. я не знаю кол-во всех урлов необходимо написать спайдер который будет готовить список ссылок для грабанья. Спайдер должен гулять только по заданной папке, по всему домену, и по всему домену и субдоменам этого домена.
- т.к. робот не может быть идеальным должны быть какие то функции администрирования: это удаление или редактирование текстов
- ну и т.к. некоторые сайты бывают очень большими надо подумать о многопоточности.
Вот и усе. Жду Ваших предложений!