Парсинг данных с сайта (корректировка) для Drupal

Андрей14 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
21.06.2013

Надо поработать с таблицей в базе, т.к. данные уже залиты на сайт. Ранее был сделан парсинг, но понадобилось его еще подчистить. Большое описание внизу, но работа простая.

Сайт под Drupal 7 с магазином Ubercart.

Изучив контент остались пункты:

1. разделить содержимое материала — Описание отдельно от Совместимость и т.д. Добавил новое поля, которые пока будут скрыты от пользователя. Например тут http://itmserv.ru/node/35781

Есть еще поле Основные характеристики. Надо посмотреть по разметке, что за поля еще добавятся.

2. вычистить описание от лишних стилей, тегов, и т.д. оставив только стандарные (b, i, ul и т.д.). Т.к. инфа с другого сайта.

3. Неверные ссылки на поиск переделать на урл нашего сайта. Т.е. например здесь «http://itmserv.ru/node/34620“ есть ссылка "/findme?search=5KTT&cid=0“

Её надо переделать на "/search/node/5KTT»

4. позиции у которых нету картинки — эту дефолтную картинку не сохранять, использовать стандартную для товара картинку нету_картинки.jpg

Картинка на сайте источнике http://www.entero.ru/photos/l/0

Например, отсюда http://www.entero.ru/item/30473

У некоторых позиций этот файл_без_картинки находиться по другому адресу.

Например эта позиция http://www.entero.ru/item/20280

с адресом на картинку http://www.entero.ru/photos/l/57214

Надо отсеить эти файлы высчитав md5 для файла и проверяя по этому md5 остальные файлы.

5. Есть фотки в Описании с битыми ссылками от корня сайта, это также относиться к ссылкам на сайт entero.ru. Надо залить с Etero эти файлы на наш сервак и подправить ссылки в описании в соответствии с тем где лежат наши файлы на хостинге — это /sites/default/files/pictures/

Также удалить все упоминания entero - ссылки и др.

Например тут http://itmserv.ru/node/19705

По тех.вопросам:

Там есть таблица "field_data_body" - в ней данные что надо поменять.

Совместимость переносить в таблицу field_data_field_compatibility

Технические характеристики - field_data_field_tech_feat

Соотсно само слово Описание и Тех.хар вырезать.

Здесь можно посмотреть что картика не показывается в тексте товара http://itmserv.ru/node/34992

По разбиению текста на части должно получиться как здесь http://itmserv.ru/node/35781

Заявки фрилансеров