Парсер Яндекс Маркета
Ответившим большое спасибо за предложения!
Исполнитель, к сожалению, может быть только один и он выбран:)
Всем удачи!
Требования.
Парсер работает автоматически по разделу. Я назначаю каким-либо образом раздел и парсер собирает данные по всем товарам этого раздела. Например, берем раздел "Электроника и Фото / Карманные электронные устройства / Устройства для чтения электронных книг". Парсер должен правильно определять УРЛы всех товаров раздела.
Какие данные собираются и как сохраняются:
1. По каждой записи создается отдельная папка. Название каждой папки = названию товара.
2. В папке сохраняются все фото. Если есть большие - то все они. Если есть только маленький тумбнейл (на котором нет значка "увеличить") - сохраняетя только он.
2. В каждой папке создается текстовый файл, в который записывается:
А). Название товара
Б). Все характеристики товара (т.е. полная версия) в виде HTML-кода
Например, обрабатывается товар http://market.yandex.ru/model.xml?hid=2417247&modelid=4530223
Характеристики сохраняются в таком виде:
*****************начало примера*****************
[html]
Характеристики дисплея
Тип
E-Ink, градаций серого: 8
Параметры
6 дюймов, 600x800
Встроенная подсветка
нет
Поддерживаемые форматы
Текстовые
TXT, PDF, DjVu, RTF, fb2
Графические
JPEG
и т.д. и т.п.
[/html]
*****************конец примера*****************
То есть, внимание(!):
а). фактически парсим оригинальный код яндекса, но....
б). удаляются все классы, стили, комменты, а также тэги - остаются только и
в). выдернутый код помещается между тэгами [html] [/html]
Все. Больше ничего не нужно.
Скрипт должен работать железно - обрабатывать весь раздел полностью, без пропуска товаров!
На чем написан скрипт - неважно. Может запускаться с локальной машины или с сайта. В последнем случае желательно, чтобы не создавалось излишней нагрузки и запустить можно было из броузера.
Предлагайте цены.