Парсер сайта Craigslist
Своппер15 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
23.04.2015
Написать парсер
• кладёт данные в mysql-базу вида штат|город|тайтл|«поля тела объявления» (изучить, какие поля есть)
• парсить все штаты США -> все города в них
• сайт — craigslist.org, парсить только подраздел /search/cas, например, для города Хьюстно — http://houston.craigslist.org/search/cas
• каждый новый запуск парсера — добавляет те, что ещё не попали в базу
• глубина начального парсинга — всё, что относится к 2015-му году
• убирать однообразные поля, по которым виден источник. На данный момент это «do NOT contact me with unsolicited services or offers» и всё, что внизу — post id и т. п.
• для картинок просто хранить значение img src