Написать парсер ссылок
Вадим13 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
30.03.2012
Привет специалистам.
Нужен парсер ссылок для работы на Ubuntu.
Суть: Есть база mysql с списком ссылок на сайты, программа должна вытаскивать по одной ссылки из базы, заходит по этой ссылки, далее находить на странице все ссылки и заносить их в базу, удалять дубликаты ссылок.
Например — парсим страницу http://wowa.ru, на этой странице есть ссылки http://yandex.ru?a=b&с=f, http://google.com/profile/my, /about.html, /main/contacts.html, в базе должно быть так:
http://wowa.ru/main/contacts.html
Программа должна работать как сервис, т.е. постоянно висит, только в базе появился новый сайт, сразу парсит его.