Фрилансеры предложат решение вашей задачи уже через несколько минут!
Публикация заказа не займет много времени.
11 лет назад
Роман Немиш
42 года, Украина
11 лет в сервисе
Был онлайн 8 лет назад
11 лет назад

Парсер html страниц.

Платформа:
ОС: windows, unix.
База данных: Mysql
Язык программирования: PHP5 php5.1.6
Уровень ошибок E_ALL
Стиль программирования, Zend Framework.
Расчет: Механизм безопасного проведения сделок http://weblancer.net/safe_deals/


1)Программа должна обходить определенный сайты в Интернете и собирать с их страниц
Нужную информацию.
2)Должна быть возможность задачи четких разделов сканирования сайта например – сканировать определенный раздел сайта.
3)Шаблоны для информации которую ищем должны задаваться регулярными выражениями
пользователем который создает поиск (perl регулярные выражения).
4) Результат поиска должен быть сохранен (надо подумать как луче сделать) – обсудим.
5) Для каждой прочитанной страниц определенного сайта может быть применено несколько
фильтров для получения с нее нужной информации.

4-5) Нужная информация - это определенный участок текста. Для примера сканируем сайт:
localhost/board/sale/ - Названия задания.
Нужно отсканировать все страницы которые находятся в данном разделе, на которые есть ссылки с
localhost/board/sale/ или ! есть страницы которые совпадают по шаблону – например message123.html.
Система должна вести учет всех отсканированных страниц по определенным хостам – их адреса и сумы
Md5 по их содержанию. Во избежание повторного сканирования.

5) После получения страницы происходит ее разбор по заданным ранее пользователем регулярному
выражению! ( или нескольким выражениям)

6) Должна вестись отчетность по проведенной работе – сколько страниц отсканировано по определенному
заданию. Сколько найдено определенных элементов через фильтра.

7) При сканировании страниц сайта может появляется одна и таже текстовая информация – дубли их нужно исключить с результатов поиска.

9) при заходах на сайты система должна имитировать работу браузера пользователя .

10) система должна поддерживать вход пользователя в свой акаунт.

Заявки фрилансеров

Нет заявок от фрилансеров

Похожие заказы

Генератор домашних страниц

Генератор домашних страниц для пользователей не сзнающих HTML и всё что с ним связано. Наравленность на Украинских пользователей.

Базу данных в web страницы

Есть база данных от продавца в формате csv: У каждого товара ( в строку) следующие столбцы (данные) Category Name NAME DESCRIPTION PRICE Offers BUY URL AVAILABILITY (yes/no) KEYWORDS IMAGEURL Нужен

Xml парсер и ресайз картинок

Есть скрипт каталога ссылок(http://www.full-soft.com), к нему нужно дописать две вещи, 1. xml парсер (для пад-файлов) как на xttp://www.getsomesoft.net/submit.html......т.е. чтобы при указании урла к xml файлу данные из него загонялись в mysql базу+ ...

Требуеться web-программист со знанием php,perl,cgi,asp,html,dhtml,xml и ве

требуеться web-программист для работы над несколькими проектами со знанием php,perl,cgi,asp,html,dhtml,xml и веерстки

Нужен флешер хорошо знающий еще и php и html

нужен флешер хорошо знающий еще и php и html для переделки и дополнения во флеш казино

Програмер на PHP, HTML

Програмер на PHP + HTML 1. Форма емиал отправки.( сама форма у меня есть ) её нужно просто настроить. 2. Нужно вставить SITEMAP XML или RSS 2.0 GENERATOR что бы он генерировал все со страниц HTML. 3. Подключить форум.

Установка скрипта в готовые html страницы

1) установка скрипта в формы для отправки данных. (одна форма-данные вписанные в графы отправляются на мыло; вторая то же самое, но есть графа, напротив которой кнопка "browse" и нужно выбрать файлы с компьютера для отправки. 2)принцип инте...

Вакансия: Веб-технолог на постоянную работу

Вакансия: Веб-технолог (возможные рубрики: веб-мастер, веб-программист, Html-кодер) Профессиональные требования: знание HTML, CSS и JavaScript, уверенное знание языков программирования PHP, Perl, технологии Smarty-шаблонов. Знание СУБД mySQL, умение ...

HTML Editor control upgrade (c#)

Необходимо обновить и несколько изменить компонент http://www.windowsforms.net/ControlGallery/ControlDetail.aspx?Control)0&tabindex Технология: .Net-2, C# Он необходимо изменить следующее: - Заменить toolbar на toolbar из .Net-2 (по умолчанию

Создание на странице сайта "Карты ПВЗ" Boxberry

Сайт Kidzlandia.ru На сайте есть раздел Контакты (https://kidzlandia.ru/kontakty) в котором при нажатии на словах "Дополнительные офисы самовывоза" или на картинке под этими словами появляется карта с Пунктами самовывоза. Необходимо сделать...