Сделать парсер
Есть mysql база сайтов, сайты находятся в категориях и под категориях
Нужен следующий функционал
Каждый сайт и 20 внутренних страниц сайта проверяеются на наличие кодов рекламных систем
marketgid, redtram, luxup, readme.ru, gnezdo.ru, novoteka, directadvert, adfox
Вот к примеру
http://www.woman.ru/dreams/dreams-nature/
там есть системы
novoteka
redtran
marketgid
adriver
luxup
если рекламный блок найден, то нужно выбирать ссылки из этих рекламных блоков (в некоторых рекламных блоках ссылки выводятся не напрямую (через javascript)), текст ссылок и картинки. Затем заходить по этим ссылкам, делать скриншот страницы, нужно учитывать что иногда есть промежуточная страница, тогда с нее нужно переходить на конечную, записывать title-страницы. (Если ссылка не прямая, а на страницу с заголовками новостей (как на marketgid) – то нужно получить сначала прямую ссылку на сайт.
так жеесли это был баненр то картинку сохраняем в базу. если объявление с картинкой то картинку и текст .
Если в блоке 3 объявления то нужно сохранять все 3 и все 3 раза идти по ссылкам.
Парсер должен работать многопоточно, не класть сервер и не съедать все ресурсы. Должен быть установлен на сервер под freebsd
Парсер должен записывать всю информацию в новую базу mysql
Останавливать запускать, настраивать скорость парсинга
настраивать время запуска (планируется что парсер будет каждую неделю делать обход всей базы, соответственно в базе должна записывться динамика) Т.е. первый полный обход, второй, и.т.д.
На сервере работает FreeBSD
Бюджет 300 долларов