Парсинг интернет-магазинов
Тех. задание:
1. Необходимо однократно получить требуемые данные с целевого сайта - интернет-магазина (парсинг), нужна полная копия
каталога товаров представленных на сайте.
2. Требуются следующие данные:
2.1. Наименование категории, в которой расположен товар.
2.2. Наименование товара.
2.3. Краткое описание товара.
2.4. Полное описание товара и характеристики. Без ссылок на внешние интернет-ресурсы. Очищенное от различных акций магазина (типа подарков, рекомендаций сопутствующих товаров и проч.).
2.5. Фотография товара в наибольшем имеющемся разрешении.
3. Формат представления данных:
3.1. Текстовые данные передаются в виде CSV файла. Разделители полей - символ ";". Тексты берутся в "кавычки", если в тексте встречается символ "кавычки", то он должен быть продублирован.
Записи отделяются друг от друга символами возврата каретки, перевода строки - chr(13,)chr(10).
(Формат совместимый с Shop-Script)
3.2. CSV файл содержит поля:
3.2.1. "Наименование" - поле содержит наименование товара или категории.
3.2.2. "Краткое описание" - поле содержит краткое описание товара.
3.2.3. "Описание" - поле содержит полное описание товара с характеристиками.
3.2.4. "Фото" - поле содержит полное имя файла фотографии товара.
3.2.5. "Цена" - поле содержит "1" (или цену товара с сайта) если это товар; поле остаётся пустым если это категория.
3.3. Тексты передаются в формате HTML содержащем только простые теги форматирования (переводы строк,
размер/жирность/цвет шрифта, таблицы, списки, без HTML заголовков, без стилей и т.п.), в кодировке 1251.
3.4. Фотографии передаются в виде прилагаемого к CSV-файлу набора файлов. Формат фотографий - как на источнике,
без изменений.
3.5. Наименование категории, непосредственно в которой находится товар, передаётся в поле "Наименование",
отдельной записью, все остальные поля этой записи остаются пустыми.