Парсер нескольких сайтов в одну базу с админкой
необходимо ежедневно брать обновления нижеприведенным ссылкам. файлы надо переработать в текст, чтобы с ними работать по базе - поиск, фильтры и тп.
обновился или нет список – не важно все равно нужно раз в день его проверять.
Нужно сделать веб-интерфейс для работы с парсенной информацией - минимум дизайна, с максимум удобства. вход - по логину и паролю. Неавторизованным показывается только форма авторизации.
после авторизации появляются разделы базы данных с фильтрами и поиском.
разделов будет несколько, разбитых по источникам и тематике.
главное это удобство поиска, фильтрации и просмотра информации
Источники для парсинга:
1. Министерство финансов РК
http://www.minfin.gov.kz/irj/portal/anonymous?guest_user=russian
парсить:
1.1. меню: нормативно-правовые акты
1.2. меню: информационные материалы - Нормативно-правовые акты, разработанные в рамках совершенствования бюджетного процесса - Законодательные акты Республики Казахстан
1.3. меню: информационные материалы - Нормативно-правовые акты, разработанные в рамках совершенствования бюджетного процесса - Подзаконные нормативные правовые акты Республики Казахстан
1.4. меню: информационные материалы - Нормативно-правовые акты, разработанные в рамках совершенствования бюджетного процесса -Справочно-аналитические материалы
1.5. меню: информационные материалы - Аналитические доклады
2. Агентство Республики Казахстан по защите конкуренции (Антимонопольное агентство)
парсить:
2.1. Реестр субъектов - доминантов http://www.azkrk.kz/rus/ml/reestr/
3. Комитет фин. контроля РК
парсить:
3.1. Cписок недобросовестных и ненадежных поставщиков
http://www.goszakup.kz/wps/portal (сейчас парсить невозможно, реконструкция)
4.парсить гос закупки - список недобросовестных участников (с подробностями)