Скачать и обработать данные с сайта
Необходимо скачать и обработать информацию с ftp-сайта zakupki.gov.ru (информация в открытом доступе):
ftp://fz223free:[email protected]/out/published/
Для каждого региона в указанной папке (/out/published/) кроме служебных папок (archive, undefined и т.п.)
необходимо скачать все архивы с данными из подпапки purchaseNotice (напр., /out/published/Adygeya_Resp/purchaseNotice/)
в т.ч. из подпапок purchaseNotice/daily и purchaseNotice/full
Далее необходимо распаковать скачанные архивы и обработать все XML-файлы в скачанных архивах:
1. Оставить только уникальные записи о закупках (уникальность по purchaseNoticeData/guid)
(возможно, что одна запись с одним guid может быть в разных файлах)
2. Собрать информацию:
- нужна только дата YYYY-MM-DD
- нужна только дата YYYY-MM-DD
3. Добавить столбец с названием региона (как указано на сайте, напр.: Adygeya_Resp)
4. Собранную информацию представить в виде таблицы Excel 97-2003 (xls):
Adygeya_Resp | 759e7ac3-73cb-4b2d-bb11-7a6119e00a66 | 2013-03-05 | Поставка дорожных знаков для нужд ГУП РА "Кошехабльский ДРСУ" |
Государственное унитарное предприятие Республики Адыгея "Кошехабльский дорожный ... | ... | ... |
------
5. Дополнительно по возможности хотелось бы получить сам скрипт, использованный для сбора и обработки данных (если это bash/perl/awk/sed/grep и т.п, а не какая-нибудь экзотика).
По бюджету -- предлагайте свой вариант суммы и способа оплаты, рассмотрим.