Парсер Яндекс Маркета

Игорь16 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

04.04.2009

Ответившим большое спасибо за предложения!

Исполнитель, к сожалению, может быть только один и он выбран:)

Всем удачи!

Требования.

Парсер работает автоматически по разделу. Я назначаю каким-либо образом раздел и парсер собирает данные по всем товарам этого раздела. Например, берем раздел "Электроника и Фото / Карманные электронные устройства / Устройства для чтения электронных книг". Парсер должен правильно определять УРЛы всех товаров раздела.

Какие данные собираются и как сохраняются:

1. По каждой записи создается отдельная папка. Название каждой папки = названию товара.

2. В папке сохраняются все фото. Если есть большие - то все они. Если есть только маленький тумбнейл (на котором нет значка "увеличить") - сохраняетя только он.

2. В каждой папке создается текстовый файл, в который записывается:

А). Название товара

Б). Все характеристики товара (т.е. полная версия) в виде HTML-кода

Например, обрабатывается товар http://market.yandex.ru/model.xml?hid=2417247&modelid=4530223

Характеристики сохраняются в таком виде:

*****************начало примера*****************

[html]

Характеристики дисплея

Тип

E-Ink, градаций серого: 8

Параметры

6 дюймов, 600x800

Встроенная подсветка

нет

Поддерживаемые форматы

Текстовые

TXT, PDF, DjVu, RTF, fb2

Графические

JPEG

и т.д. и т.п.

[/html]

*****************конец примера*****************

То есть, внимание(!):

а). фактически парсим оригинальный код яндекса, но....

б). удаляются все классы, стили, комменты, а также тэги - остаются только и

в). выдернутый код помещается между тэгами [html] [/html]

Все. Больше ничего не нужно.

Скрипт должен работать железно - обрабатывать весь раздел полностью, без пропуска товаров!

На чем написан скрипт - неважно. Может запускаться с локальной машины или с сайта. В последнем случае желательно, чтобы не создавалось излишней нагрузки и запустить можно было из броузера.

Предлагайте цены.

HTML