Парсер вычленяющий адрес

Тер18 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
25.04.2007

Задача написать парсер html документов вычленяющий почтовый адрес из объявлений на сайте craigslist.org

1) надо по первой странице собрать региональные ссылки (http://geo.craigslist.org/iso/us/ny, http://geo.craigslist.org/iso/us/mo ...)

2) По ним собрать собственно доски объявлений в регионе (http://joplin.craigslist.org/ , http://kansascity.craigslist.org/ ...)

3) Там забратьтся в раздел real estate for sale (http://kansascity.craigslist.org/rfs/)

4) Там перебирать листинги и выдирать из них адреса. Адресак могут быть в виде ссылок на google maps (http://kansascity.craigslist.org/rfs/318146072.html => http://maps.google.com/?q=loc%3A+12700+Cherokee+Lane+leawood+ks+US и с корректным указанием location) или могут быть в тексте просто (http://kansascity.craigslist.org/rfs/318080497.html => 311 N 80th Terrace, Kansas City, KS) или в html (http://losangeles.craigslist.org/lac/rfs/318121670.html => 18815 SE Yamhill

Portland, Or 97224 )

5) Собраные адреса надо верифицировать через google maps

От софта не требуется стопроцентного выдирания адресов, однако результатом выдачи должны быть только корректные адреса. С хотя бы 90% вероятностью програмка должна уметь находить и выдирать адрес там, где он есть.

Приемка работы будет делать по тестовому запуску у вас на хостинге.

Заявки фрилансеров