Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Необходимо сделать Базу Данных (БД), парсер (записывающий в эту БД) и рассыльщик (простейший рассыльщик писем берущий информацию из этой БД, по заданной выборке).

Основные поля БД:

№ - номер записи

Дата добавления

Дата последнего изменения

Муниципальный округ++++

Сайт муниципального округа ++++

Подразделение (унитарное предприятие, комитет, отдел, управление, департамент и т.д.)++++

Адрес страницы подразделения (откуда взята вся информация) ++++

ФИО Ответственного

e-mail (подразделения) ++++

Телефон

Физический адрес

Специальные поля, если они необходимы,на усмотрение программиста.

Первые три поля к парсеру не имеют ни какого отношения, остальные заполняются за счет парсера. Поля с (++++) для нас ключевые и если с (Муниципальный округ, Сайт муниципального округа и Адрес страницы подразделения) все более менее понятно и просто, то вот остальные поля и являются камнем преткновения.

Что требуется от парсера, поиск этих полей. Список муниципальных сайтов по которым ведется поиск (при этом желательно отдельным файлом и с возможностью редактирования). Список слов исключений, при нахождении такого слова в названии подразделения запись не заносится (например нам не интересны полиция, суды и т.д.) , необходимо что бы список можно было редактировать. Такой же список по ключевым словам (при этом список исключений имеет приоритет).

БД и парсер имеют три уровня доступа. Пользователь (просмотр, выборка и рассылка), Админ(редактирование,

выдача пользователей, запуск парсера, изменения списков слов и сайтов), «Супер админ» (может все, скрытая опция)

Все права выдаются Пользователи Админом а Админские Супер админом.

Существует порядка 250 Администротивных округов у них в подчинении и находятся муниципальные образования их 23001. На каждом сайте администрации есть ссылки на муниципальные образования, которые находятся у них в подчинении. Задача чтобы парсер зайдя на сайт администрации нашел ссылки на муниципальные сайты, зашел туда а там уже нашел нужную нам информацию.

Необходимо что бы список сайтов Администраций и Муниципальных образований хранился отдельно и мог редактироваться.

Тут можно взять перечень всех субъектов России. http://ru.wikipedia.org/wiki/%CC%F3%ED%E8%F6%E8%EF%E0%EB%FC%ED%EE%E5_%EE%E1%F0%E0%E7%EE%E2%E0%ED%E8%E5

Соответственно на сайтах администраций есть списки подчинённых муниципальных образований. Рассмотрим пример:

К примеру выбираем Администрация Ленинградской области - Интернет

сайты там идем http://www.lenobl.ru/local_government/sites берем

самый первый сайт

Бокситогорского http://www.boksitogorsk.ru

И там начинаем искать:

Находим например

Муниципальное унитарное предприятие "Благоустройство"

Руководитель предприятия: директор Антонова Светлана Николаевна

Адрес предприятия: 187650, Ленинградская область, г. Бокситогорск,

ул. Советская, д.6 Электронная почта (e-mail):

[email protected] Контактные телефоны:

Директор: (81366)243-46

Секретарь: (81366)216-12

Или

Председатель комитета образования - Смирнова Марина Михайловна

Приемная комитета образования: тел/факс: (81366) 248-85

Электронная почта (e-mail): [email protected]

Именно изза того что нет единого реестра таких сайтов я попросил вас сделать список отдельным файлом и с возможностью редактирования и очень желательно при редактировании проверку на совпадения (что бы один и тот же сайт несколько раз не парсить).

Есть еще сайты которые пытаются объединить и собрать такую информацию, например:

http://system.infometer.org/ru/monitoring/136/rating/

http://esms.munrus.ru/in/msite/site_list

Но на них информация крайне не полная.

С учетом того что для нас первоочередное значение имеет электронная почта, предлагаю от нее и отталкиваться. То есть ищем почту а потом одно из ключевых слов (унитарное предприятие, комитет, отдел, управление, департамент), как правило название не состоит более чем из 5 слов, таким образом мы заполняем поле подразделение и e-mail (это ключевые поля которые нам очень важны). Поля Муниципальный округ, Сайт муниципального округа и Адрес страницы подразделения не должны вызвать затруднения, их заполняем в случаи заполнения подразделение и e-mail. ФИО, телефон и адрес, по ФИО скорее всего придется подключить библиотеку имен и отталкиваясь от имени брать фамилию и отчество, по телефону и адресу скорее всего придется создать некий критерий и если запись ему отвечает то заполняем поля. Для телефона это может быть +7 ……….. или 8 ………. А для адреса г. …….. (пр. ул. Ал.Пер. и тд.)

Нужно обязательно продумать систему фильтров что бы парсер не лез например на поисковики (на многих сайтах есть ссылки на них) или не смотрел страницу с фотографиями и т.д.

10 лет назад
efimovm
37 летБеларусь
10 лет в сервисе
Был
10 лет назад