Парсинг
Требуется сформировать базу данных по научным организациям на основе данных сайта:
http://www.sciencemon.ru/office/allfoiv/allorgs
Состав данных Справочники
1. ФОИВ
Состав ФОИВ может быть получен из выпадающего поискового меню.
2. Категории.
Предварительное наполнение (уточняется в рамках парсинга):
- 1 категория: научные организации лидеры
- 2 категория: стабильные научные организации, демонстрирующие удовлетворительную результативность
- 3 категория: научные организации, утратившие научную деятельность в качестве основного вида деятельности и перспективы развития
- не в рамках приказа
- не выбрано
3. Направления исследований
Состав направлений может быть получен из выпадающего поискового меню.
Предварительное наполнение (полный справочник формируется в рамках парсинга):
- Образование и педагогика
- Исследования социальных проблем
- Экономика
- Языки и лингвистика
- Информатика информационные системы
- Науки о земле междисциплинарные
- История
- Философия
И пр
4. Показатели
Предварительное наполнение (уточняется в рамках парсинга):
- Показатель А число произведений и публикаций в расчете на 100 исследователей и работников профессорско-преподавательского состава
- Показатель Б количество созданных РИД и выпущенной конструкторской и технологической документации в расчете на 100 исследователей и работников профессорско-преподавательского состава
- Показатель В отношение объема выполненных работ, оказанных услуг к общей численности работников, выполнявших ИР (тыс. руб)
Состав данных Основные таблицы
1. Научные организации
Поля:
- ID суррогатный ключ
- Полное название
- Краткое название
- Организационно-правовая форма
- ИНН
- КПП
- ОГРН
- ID ФОИВ
- ФИО руководителя
- Должность руководителя
- Адрес электронной почты
- Юридический адрес
- Почтовый адрес
- Официальный сайт
- Категория (ссылка на справочник категорий)
- Количество открытых вакансий
2. Направления исследований
Поля:
- ID организации
- ID направления исследований
3. Показатели деятельности
Поля:
- ID организации
- ID показателя
- Значение показателя
Режим сбора данных
- Данные загружаются в таблицы БД Postgres.
- Всегда производится полный сбор данных. Перед загрузкой данных целевые таблицы очищаются.
- Загрузка запускается вручную, с командной строки.
- В процессе загрузки ведется лог, в который сохраняется дата-время начала и окончания загрузки, информация о количестве загруженных организаций, информация об ошибках. Лог при каждой новой загрузке не очищается, т.е. сохраняет информацию ото всех сессиях загрузки.
- Параметры приложения:
- Каталог хранения логов
- Адрес (url) страницы с организациями
- Параметры подключения к БД: хост, порт, имя БД, пользователь, пароль, имя схемы