Парсер вычленяющий адрес
Задача написать парсер html документов вычленяющий почтовый адрес из объявлений на сайте craigslist.org
1) надо по первой странице собрать региональные ссылки (http://geo.craigslist.org/iso/us/ny, http://geo.craigslist.org/iso/us/mo ...)
2) По ним собрать собственно доски объявлений в регионе (http://joplin.craigslist.org/ , http://kansascity.craigslist.org/ ...)
3) Там забратьтся в раздел real estate for sale (http://kansascity.craigslist.org/rfs/)
4) Там перебирать листинги и выдирать из них адреса. Адресак могут быть в виде ссылок на google maps (http://kansascity.craigslist.org/rfs/318146072.html => http://maps.google.com/?q=loc%3A+12700+Cherokee+Lane+leawood+ks+US и с корректным указанием location) или могут быть в тексте просто (http://kansascity.craigslist.org/rfs/318080497.html => 311 N 80th Terrace, Kansas City, KS) или в html (http://losangeles.craigslist.org/lac/rfs/318121670.html => 18815 SE Yamhill
Portland, Or 97224 )
5) Собраные адреса надо верифицировать через google maps
От софта не требуется стопроцентного выдирания адресов, однако результатом выдачи должны быть только корректные адреса. С хотя бы 90% вероятностью програмка должна уметь находить и выдирать адрес там, где он есть.
Приемка работы будет делать по тестовому запуску у вас на хостинге.