Сделать парсер

Борисов17 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

28.07.2010

Есть mysql база сайтов, сайты находятся в категориях и под категориях

Нужен следующий функционал

Каждый сайт и 20 внутренних страниц сайта проверяеются на наличие кодов рекламных систем

marketgid, redtram, luxup, readme.ru, gnezdo.ru, novoteka, directadvert, adfox

Вот к примеру

http://www.woman.ru/dreams/dreams-nature/

там есть системы

novoteka

redtran

marketgid

adriver

luxup

если рекламный блок найден, то нужно выбирать ссылки из этих рекламных блоков (в некоторых рекламных блоках ссылки выводятся не напрямую (через javascript)), текст ссылок и картинки. Затем заходить по этим ссылкам, делать скриншот страницы, нужно учитывать что иногда есть промежуточная страница, тогда с нее нужно переходить на конечную, записывать title-страницы. (Если ссылка не прямая, а на страницу с заголовками новостей (как на marketgid) – то нужно получить сначала прямую ссылку на сайт.

так жеесли это был баненр то картинку сохраняем в базу. если объявление с картинкой то картинку и текст .

Если в блоке 3 объявления то нужно сохранять все 3 и все 3 раза идти по ссылкам.

Парсер должен работать многопоточно, не класть сервер и не съедать все ресурсы. Должен быть установлен на сервер под freebsd

Парсер должен записывать всю информацию в новую базу mysql

Останавливать запускать, настраивать скорость парсинга

настраивать время запуска (планируется что парсер будет каждую неделю делать обход всей базы, соответственно в базе должна записывться динамика) Т.е. первый полный обход, второй, и.т.д.

На сервере работает FreeBSD

Бюджет 300 долларов

JavaScript MySQL