Парсинг в 2 CSV + папка с JPG/ GIF. Инетмагаз. 2
Итоговая задача: спарсенная инфа используется для загрузки на сайт моего инет магаза и на маркет price.ru
Сайт-источник будет дан в личке. Защит и сложностей нет.
Требуется спарсить в два файла XLS/ csv с делением по столбцам предложенного формата информацию + имена фотографий лотов в соотв. ячейках + фото в отдельную папку.
Разделы к парсингу, включая все подкатегории:
1. Ноутбуки и аксессуары
2. Мониторы
3. LCD телевизоры
4. Игровые приставки
5. Смарты и навигаторы.
Парсим источник в два файла CSV + папка с уникальными именами фотографий (имена которых вставляются в соотв. ячейку описания лота)/ фотками.
Дополнительно, в файле формата "А" создаётся ещё один столбец "ID2" с уникальными сгенерированными ID/Артикулами/
Так же прошу обратить внимание на наличие на исходнике трёх колонок с ценами. Соотв., надо парсить все три цены, занося их в три столбца формата "А".
Первый (А) будет с максимальным делением инфы по столбцам.
Второй (Б) конвертим под требуемый формат, описание которого изложено ниже.
Форматы итоговых CSV:
А. Максимально-разбитая по столбцам инфа с источника.
Столбцы, которые должны быть заполнены для каждого раздела - свои, поэтому один раздел - один файл CSV с соотв. именем раздела. Пример:
1. Категория
(ноутбуки)
2. Подкатегория
(Ноутбуки диагональ от 16" и более )
3. Цена
21 857
4. Валюта
руб.
5. ID товара
(0475392)
6. Код производителя
(VF274EA)
7. Заголовок
(Ноутбук HP CQ61-210ER T4200/4G/250G/VB)
8. Процессор
(Intel® Pentium® T4200 (Merom, FSB800MHz, 1Mb L2 Cache))
...
9. Фото
(1874566nb_1.jpg, 1874567nb_1.jpg)
и т.д., для каждой категории/ подкатегории товара - свои заголовки и столбцы (разные названия блоков описания товара).
Б. Формат price.ru
Берём полученный файл А, обрабатываем нужные столбцы, склеивая их, получаем на выходу нужный формат.
Описание формата итогового файла тут: http://price.ru/about/price_sample.html
Сам файл к заполнению тут: http://price.ru/about/sample.xls
Укажите бюджет и сроки.
Нужна программа - парсер. С настройками в INI: последовательность столбцов, папки в которые складывается, задержки парсинга и т.п..
Отписывать всё, что можете ответить в тендере, в личку не писать, я сам свяжусь.
Срок итогов - через 24 часа после принятия в тендере, с возможными доработками не более 12 часов.