Скачать и обработать данные с сайта

Анатолий11 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
06.05.2014

Необходимо скачать и обработать информацию с ftp-сайта zakupki.gov.ru (информация в открытом доступе):

ftp://fz223free:[email protected]/out/published/

Для каждого региона в указанной папке (/out/published/) кроме служебных папок (archive, undefined и т.п.)

необходимо скачать все архивы с данными из подпапки purchaseNotice (напр., /out/published/Adygeya_Resp/purchaseNotice/)

в т.ч. из подпапок purchaseNotice/daily и purchaseNotice/full

Далее необходимо распаковать скачанные архивы и обработать все XML-файлы в скачанных архивах:

1. Оставить только уникальные записи о закупках (уникальность по purchaseNoticeData/guid)

(возможно, что одна запись с одним guid может быть в разных файлах)

2. Собрать информацию:

- нужна только дата YYYY-MM-DD

- нужна только дата YYYY-MM-DD

3. Добавить столбец с названием региона (как указано на сайте, напр.: Adygeya_Resp)

4. Собранную информацию представить в виде таблицы Excel 97-2003 (xls):

Adygeya_Resp | 759e7ac3-73cb-4b2d-bb11-7a6119e00a66 | 2013-03-05 | Поставка дорожных знаков для нужд ГУП РА "Кошехабльский ДРСУ" |

Государственное унитарное предприятие Республики Адыгея "Кошехабльский дорожный ... | ... | ... |

------

5. Дополнительно по возможности хотелось бы получить сам скрипт, использованный для сбора и обработки данных (если это bash/perl/awk/sed/grep и т.п, а не какая-нибудь экзотика).

По бюджету -- предлагайте свой вариант суммы и способа оплаты, рассмотрим.

Заявки фрилансеров