Парсер сайта
Требуется парсер, выгружающий справочник http://www.spr.ru (Москва и Московская область) в табличный файл (.csv или .xls)
Формат выгрузки:
1 строчка — одна компания. Столбцы таблицы:
ulr
рубрика
наименование компании
адрес
сайт
описание
телефон1
телефон2
телефон3
Часы работы
Дополнительные сведения (http://www.spr.ru/odintsovo-i-odintsovskiy-rayon/lionne.html) или Описание (http://www.spr.ru/odintsovo-i-odintsovskiy-rayon/yuriskonsult-plyus-407542.html)
На сайте телефоны представлены в виде картинок — они должны распознаны и занесены в таблицу (в виде цифр).
В случае сбоя докачка должна производится с места сбоя (с сохранением спарсенных результатов).
Также необходима возможность отбора по городу или району Москвы (отбор по части URL, например /odintsovo-i-odintsovskiy-rayon/) и возможность выставлять задержку парсинга (в мсек).
Дополнительно:
нужна возможность получать только страницы, которые добавились/изменились с момента предыдущего скачивания (не в случае сбоя).