Парсер html страниц + портал объявлений.
Парсер html страниц + портал объявлений.
Платформа:
База данных: Mysql
Язык программирования: PHP5
1 Парсер html.
1-1. Программа должна обходить определенный сайты в Интернете и собирать с их страниц Нужную информацию.
1-2. Должна быть возможность задачи четких разделов сканирования сайта например – сканировать определенный раздел сайта.
1-3. Шаблоны для информации которую ищем должны задаваться регулярными выражениями пользователем который создает поиск (perl регулярные выражения).
1-4. Результат поиска должен быть сохранен в базу данных.
1-5. Для каждой прочитанной страниц определенного сайта может быть применено несколько фильтров для получения с нее нужной информации.
1-4, 1-5. Нужная информация - это определенные участоки текста. Для примера сканируем сайт:
localhost/board/sale/ - Названия задания.
Нужно отсканировать все страницы которые находятся в данном разделе, на которые есть ссылки с
localhost/board/sale/ или ! есть страницы которые совпадают по шаблону – например message123.html.
Система должна вести учет всех отсканированных страниц по определенным хостам – их адреса и сумы
Md5 по их содержанию. Во избежание повторного сканирования.
1-6. После получения страницы происходит ее разбор по заданным ранее пользователем регулярному
выражению! ( или нескольким выражениям)
1-7. Должна вестись отчетность по проведенной работе – сколько страниц отсканировано по определенному
заданию. Сколько найдено определенных элементов через фильтра.
1-8. При сканировании страниц сайта может появляется одна и таже текстовая информация – дубли их нужно исключить с результатов поиска.
1-9. при заходах на сайты система должна имитировать работу браузера пользователя и работать через прокси.
1-10. система должна поддерживать вход пользователя в свой акаунт (авторизацию).
* парсер должен быть по максимуму универсален и настраиваться под любые доски объявлений
2. портал объявлений.
2-1 на главной странице список главных категорий (первый уровень) с количеством размещенных предложений, список регионов с количеством размещенных предложений, 10 последних записей
2-2 списой объявлений - http://www.test4-rusgraphics.net/component/option,com_rgshopdirectory/task,tenders/Itemid,22/
2-3 вывод отдельного предложения http://www.test4-rusgraphics.net/index.php?option=com_rgshopdirectory&task=tender&id=1
2-4 на всех страницах поиск с сортировками
2-5 авторизация (три группы пользователей):
- "автор" для добавления предложений
- "клиент" для просмотра контактной информации
- "администратор" для модерации добавленых предложений (одобрение, удаление) и установление срока доступа к контактной информации для группы "клиент"
2-6 рубрикатор - три уровня вложенности категорий
2-7 rss
2-8 рассылка заголовков объявлений
* остальное уточню по ходу обсуждения
Предложения с указанием цены и сроков оставляйте на проекте!
Желательна ссылка на подобные проекты (портального типа)