Парсинг товаров для интернет-магазина в CSV-формат
Добрый день!
Требуется пасринг всех товаров из каталога https://n-kabel.ru/catalogue/
Карточка товара (пример): https://n-kabel.ru/catalogue/kabely_nymng/
Это НЕ карточка товара (пример): https://n-kabel.ru/catalogue/kabely_gerda/
Образец результата парсинга в приложенном csv-файле.
Обратить внимание:
1. Каждый товар имеет свой порядковый номер (код товара), по шаблону: 0000001, 0000002, 0000003 и т.д. Все они должны быть уникальными (не должно быть повторяющихся кодов товаров).
2. Во всех карточках товара есть ссылки на другие карточки товаров: https://take.ms/55ifb
В товарной таблице (результате парсинга) у дочерних товаров указывается ключ родительского товара к которому они принадлежат. Пример: родительский товар с ссылками на дочерние https://take.ms/SD8YK и как это должно быть в результате парсинга: https://take.ms/jgmVi Разумеется, что у родительского товара не нужно указывать ключ товара на самого себя (пустая ячейка).
Заменять:
на пробел.
- на
на ничего
на ничего
на ничего (то-есть все теги ссылок убираем)
на ничего (в текстах полностью убираем картинки)
Фотографии:
скачивать фото в отдельную папку images. Имя файла фотографии менять на порядковый номер товара, например: 000001.jpg
Название товаров:
Слово "кабель" в таблице переносится в колонку "префикс названия" https://take.ms/qjNwG
Категории каталога:
Берем из breadcrumb строки, заменяем / на >> (без пробелов между символами и буквами, все строчными. Исключаем в категориях "главная", "каталог кабельной продукции" и последнюю ссылку https://take.ms/HtTjOp