Парсинг реестров СРО РФ
Пожалуйста, присылайте оценки по двум этапам работ:
1. Разовый сбор
2. Регулярная выгрузка раз в неделю (стоимость подписки на месяц)
Необходимо собрать данные с 3 сайтов:
1. http://reestr.nostroy.ru/reestr . Обратите внимание, что сайт блокирует, показывает капчу при числе запросов >2 запросов в секунду.
1.1 Карточки СРО, пример http://reestr.nostroy.ru/clients/152 . Нужно собрать значения всех полей. Число записей с карточками ~300
1.2 Карточки членов СРО, пример http://reestr.nostroy.ru/reestr/clients/407/members/5809569 . Нужно собрать значения всех полей из всех вкладок ("Сведения о члене СРО", "Сведения о наличии права", ...) . Число записей с карточками ~300 000
2. http://reestr.nopriz.ru/reestr . Обратите внимание, что сайт блокирует, показывает капчу при числе запросов >2 запросов в секунду.
2.1 Карточки СРО, пример http://reestr.nopriz.ru/clients/319 . Нужно собрать значения всех полей. Число записей с карточками ~250
2.2 Карточки членов СРО, пример http://reestr.nopriz.ru/reestr/clients/319/members/17556524 . Нужно собрать значения всех полей из всех вкладок ("Общая информация", "Страхование", ...) . Число записей с карточками ~150 000
Карточки СРО, пример http://sro.gosnadzor.ru/sro_detail.php?ID=6716 . Нужно собрать значения всех полей из всех вкладок. Число записей ~550
Как должен выглядеть результат разовой выгрузки:
1. Архив с набором XML-файлов. ~1100 файлов для карточек СРО (п1.1 + п.2.1 + п.3), ~450 000 файлов для карточек членов СРО (п1.2 + п.2.2)
2. В приложении вручную составленный пример оформления XML. В sro.xml пример для карточки СРО. В member.xml пример для члена СРО.
Как должен выглядеть результат регулярной выгрузки:
1. Содержание и оформление архива такое же как в разовой выгрузке.
2. В архиве должно быть не ~1100 + 450 000 файлов карточек, а только те карточки которые поменялись с момента предыдущей выгрузки.