Парсинг Excel файлов и агрегация в Long csv файл
Необходимо свести в один CSV файл (т.е. перевести из wide -> long format) информацию из Excel таблиц с сайта ЦБ.
Поквартальные архивы с 2012 по 2018 год включительно (7 лет * 4 квартала = 28 архивов) доступны по ссылке на сайте ЦБ в разделе "Статистические показатели и информация об отдельных субъектах страхового дела"
https://www.cbr.ru/finmarket/supervision/sv_insurance/
Ссылка на архив за 4 кв 2018 для примера:
2018: https://www.cbr.ru/Collection/Collection/File/15752/2018_4.rar
Необходимо перевести все показатели в машиночитаемый/обрабатываемый вид. Каждое значение из wide формата (изначальный файл) должно стать отдельной записью в длинном файле. В случае объединения в экселе отдельных ячеек шапки - формируется отдельные колонки с корректным названием
На примере файла "01.Страх премии.."
В результате CSV следующего вида (колонки):
- Источник значения (файл)
- № строки Ексель (чтобы в дальнейшем можно было найти в исходниках)
- № столбца Ексель (чтобы в дальнейшем можно было найти в исходниках)
- Код строки
- Код столбца (в файле-примере это 9-я строка)
- Наименование (1-я колонка, столбец "А" показателя: формируется из комбинации Если показатель "вложенный", т.е. в екселе входит в состав "В том числе", то название должно учитывать "верхний" уровень. Т.е. строка №11 должна называться "Добровольное и обязательное страхование (кроме обязательного медицинского страхования) – всего из них: страхование нерезидентов"
- название показателя (для столбца "F", например: "Количество страховых случаев, единиц - заявленных"
- значение показателя = 487802