Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Парсер html страниц + портал объявлений.

Платформа:

База данных: Mysql

Язык программирования: PHP5

1 Парсер html.

1-1. Программа должна обходить определенный сайты в Интернете и собирать с их страниц Нужную информацию.

1-2. Должна быть возможность задачи четких разделов сканирования сайта например – сканировать определенный раздел сайта.

1-3. Шаблоны для информации которую ищем должны задаваться регулярными выражениями пользователем который создает поиск (perl регулярные выражения).

1-4. Результат поиска должен быть сохранен в базу данных.

1-5. Для каждой прочитанной страниц определенного сайта может быть применено несколько фильтров для получения с нее нужной информации.

1-4, 1-5. Нужная информация - это определенные участоки текста. Для примера сканируем сайт:

localhost/board/sale/ - Названия задания.

Нужно отсканировать все страницы которые находятся в данном разделе, на которые есть ссылки с

localhost/board/sale/ или ! есть страницы которые совпадают по шаблону – например message123.html.

Система должна вести учет всех отсканированных страниц по определенным хостам – их адреса и сумы

Md5 по их содержанию. Во избежание повторного сканирования.

1-6. После получения страницы происходит ее разбор по заданным ранее пользователем регулярному

выражению! ( или нескольким выражениям)

1-7. Должна вестись отчетность по проведенной работе – сколько страниц отсканировано по определенному

заданию. Сколько найдено определенных элементов через фильтра.

1-8. При сканировании страниц сайта может появляется одна и таже текстовая информация – дубли их нужно исключить с результатов поиска.

1-9. при заходах на сайты система должна имитировать работу браузера пользователя и работать через прокси.

1-10. система должна поддерживать вход пользователя в свой акаунт (авторизацию).

* парсер должен быть по максимуму универсален и настраиваться под любые доски объявлений

2. портал объявлений.

2-1 на главной странице список главных категорий (первый уровень) с количеством размещенных предложений, список регионов с количеством размещенных предложений, 10 последних записей

2-2 списой объявлений - http://www.test4-rusgraphics.net/component/option,com_rgshopdirectory/task,tenders/Itemid,22/

2-3 вывод отдельного предложения http://www.test4-rusgraphics.net/index.php?option=com_rgshopdirectory&task=tender&id=1

2-4 на всех страницах поиск с сортировками

2-5 авторизация (три группы пользователей):

- "автор" для добавления предложений

- "клиент" для просмотра контактной информации

- "администратор" для модерации добавленых предложений (одобрение, удаление) и установление срока доступа к контактной информации для группы "клиент"

2-6 рубрикатор - три уровня вложенности категорий

2-7 rss

2-8 рассылка заголовков объявлений

* остальное уточню по ходу обсуждения

Предложения с указанием цены и сроков оставляйте на проекте!

Желательна ссылка на подобные проекты (портального типа)

16 лет назад
den2607
48 летРоссия
16 лет в сервисе
Был
5 месяцев назад