Парсер price.ru и сайта компании

Малышев16 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
28.01.2012

Требуется скрипт, который будет:

1. проходить по странице типа http://price.ru/firm-offers/6190 (или http://ancient.price.ru/bin/price/prodlist?base=1&fid=6190&where=00) , сохранять в базу данных цену и ссылку на товар компании,

2. из названий товаров выделять первую часть (скрипт поишется в расчете использования с одной конкретной компанией, поэтому алгоритм выделения этой части есть)

3. на price.ru находить эту часть в поиске товаров, из результата извлекать и сохранять в базе данных цену и ссылку на компанию

4. проходить страницам сайта фирмы, которые посвящены представленным на price.ru товарам и еще не сохранены у нас, извлекать оттуда описания и картинки товаров и сохранять их, при этом автоматически создавать миниатюры картинок.

Поскольку объем большой (около 35000 предложений), требуется делать паузы, т.е не забирать эти страницы непрерывным потоком. Т.о., это должен быть представляющийся браузером скрипт, который будет запускаться по cron каждую минуту, делать случайную паузу во времени (иногда даже завершаясь - чтобы сделать паузу в опросе более минуты), вытаскивать из рабочей таблицы случайное число записей об очередных страницах, которые надо обработать, и тащить эти страницы.

Последовательность забора c price.ru:

а) забрать страницу оглавления (вместе с картинками и скриптами)

б) забрать все страницы товаров с этой страницы (вместе с картинками и скриптами)

в) перейти к пункту а) для следующей страницы оглавления.

Заявки фрилансеров