Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Парсер html страниц.

Платформа:

ОС: windows, unix.

База данных: Mysql

Язык программирования: PHP5 php5.1.6

Уровень ошибок E_ALL

Стиль программирования, Zend Framework.

Расчет: Механизм безопасного проведения сделок http://weblancer.net/safe_deals/

1)Программа должна обходить определенный сайты в Интернете и собирать с их страниц

Нужную информацию.

2)Должна быть возможность задачи четких разделов сканирования сайта например – сканировать определенный раздел сайта.

3)Шаблоны для информации которую ищем должны задаваться регулярными выражениями

пользователем который создает поиск (perl регулярные выражения).

4) Результат поиска должен быть сохранен (надо подумать как луче сделать) – обсудим.

5) Для каждой прочитанной страниц определенного сайта может быть применено несколько

фильтров для получения с нее нужной информации.

4-5) Нужная информация - это определенный участок текста. Для примера сканируем сайт:

localhost/board/sale/ - Названия задания.

Нужно отсканировать все страницы которые находятся в данном разделе, на которые есть ссылки с

localhost/board/sale/ или ! есть страницы которые совпадают по шаблону – например message123.html.

Система должна вести учет всех отсканированных страниц по определенным хостам – их адреса и сумы

Md5 по их содержанию. Во избежание повторного сканирования.

5) После получения страницы происходит ее разбор по заданным ранее пользователем регулярному

выражению! ( или нескольким выражениям)

6) Должна вестись отчетность по проведенной работе – сколько страниц отсканировано по определенному

заданию. Сколько найдено определенных элементов через фильтра.

7) При сканировании страниц сайта может появляется одна и таже текстовая информация – дубли их нужно исключить с результатов поиска.

9) при заходах на сайты система должна имитировать работу браузера пользователя .

10) система должна поддерживать вход пользователя в свой акаунт.

17 лет назад
ienergo
Роман 
48 летУкраина
18 лет в сервисе
Был
14 лет назад
5 отзывов
  • Похожие заказы
  • $60

    Срочно нужен генератор однотипных страниц с возможностью подстановок по маскам кейвордов, абзацев и ссылок. В общем что-то вроде доргена. Если вы писали дорген - с этим справитесь тоже.

    Завершен
    17 лет назад
  • Требуется настроить шаблон для DLE по отверстанному (на дивах) дизайну. Настроить работу информационных разделов, модуль рекламы, интегрировать с IPB (он уже функционирует - то есть база не пустая...), дописать фотогалерею. ТЗ в процессе, надеюсь скоро смогу ...

    Завершен
    17 лет назад
  • У движка Joomla есть компонент называемый Feedgator (com_feedgator) задуман он достаточно хорошо только немного не доделан. В его задачу входит сбор новостей с RSS каналов и добавления их в базу данных сайта. Задача: Нужно этот ...

    Закрыт
    17 лет назад
  • Нужен скриптик анти-спама для форума, с защитной картинкой, чтобы этот скрипт можно было вставить для регистрации и для отправки сообщений для форумов phpBB, IPB, YaBB. НЕ НУЖНО ПИСАТБ, подойдет обычный..который можно найти в сети..лишь бы работал. Цена соответственно. ...

    Завершен
    17 лет назад
  • Необходимо адаптировать сайт для подключения к яндекс-маркет и price.ru. www.aksmarket.ru необходимые требования в приложенном файле

    Закрыт
    17 лет назад
  • $300

    Здравствуйте Могу сказать что это не новое уже про это я слышал но... все же хочу предложить такой вариант сделки 1 Вы делайте такой проект на 3-4 игр ( шашки шахматы карты(дурак)) 2 Проект Игрок+Игрок не компьютер 3 ...

    Закрыт
    17 лет назад
  • $500

    Работа на дому, полный день. Установка движков (скриптов), возможно, перевод с английского на русский движков. Поддержка и развитие существующих сайтов, разработка новых. Написание парсеров (в БД). Нужно уметь верстать, внедрять дизайн (возможно, редактировать дизайн), веб-программирование. Каждому человеку предоставляется ...

    Закрыт
    17 лет назад