Парсер html страниц
Парсер html страниц.
Платформа:
ОС: windows, unix.
База данных: Mysql
Язык программирования: PHP5 php5.1.6
Уровень ошибок E_ALL
Стиль программирования, Zend Framework.
Расчет: Механизм безопасного проведения сделок http://weblancer.net/safe_deals/
1)Программа должна обходить определенный сайты в Интернете и собирать с их страниц
Нужную информацию.
2)Должна быть возможность задачи четких разделов сканирования сайта например – сканировать определенный раздел сайта.
3)Шаблоны для информации которую ищем должны задаваться регулярными выражениями
пользователем который создает поиск (perl регулярные выражения).
4) Результат поиска должен быть сохранен (надо подумать как луче сделать) – обсудим.
5) Для каждой прочитанной страниц определенного сайта может быть применено несколько
фильтров для получения с нее нужной информации.
4-5) Нужная информация - это определенный участок текста. Для примера сканируем сайт:
localhost/board/sale/ - Названия задания.
Нужно отсканировать все страницы которые находятся в данном разделе, на которые есть ссылки с
localhost/board/sale/ или ! есть страницы которые совпадают по шаблону – например message123.html.
Система должна вести учет всех отсканированных страниц по определенным хостам – их адреса и сумы
Md5 по их содержанию. Во избежание повторного сканирования.
5) После получения страницы происходит ее разбор по заданным ранее пользователем регулярному
выражению! ( или нескольким выражениям)
6) Должна вестись отчетность по проведенной работе – сколько страниц отсканировано по определенному
заданию. Сколько найдено определенных элементов через фильтра.
7) При сканировании страниц сайта может появляется одна и таже текстовая информация – дубли их нужно исключить с результатов поиска.
9) при заходах на сайты система должна имитировать работу браузера пользователя .
10) система должна поддерживать вход пользователя в свой акаунт.