Парсер для справочника организаций
Возникла потребность выгрузить справочник
организаций.
Сайт - spr.ru
Пример страницы - http://www.spr.ru/sokolniki/kamerton-nedvizhimosti-1398433.html
Сам столкнулся с двумя проблемами:
1. Телефоны представлены в виде картинок, которые нужно распознать.
2. Картинки телефонов зашиты в PHP – их нужно сохранить на диск или узнать их url
Нужна программа (с открытым для чтения и изменений кодом), которая, получая на входе файл со ссылками на страницы компаний, будет считывать всю контактную информацию по компаниям и записывать ее в табличный файл (1 строчка - одна компания. Столбцы таблицы: ulr-наименование компании-адрес-сайт-рубрика-описание-телефон1-телефон2-телефон3). Страницы компаний все типовые, как в примере.
На доп. условиях - программа должна уметь создавать список ссылок на все страницы, пробежав по рубрикатору город->рубрика того же сайта.