Скрипт для парсинга туров на сайт WP
Задание на сбор контента с сайтов по туризму в общий каталог походов.
Есть пустой сайт-каталог походов. В основе шаблон WP Book Your Travel для мультивендорного каталога и магазина https://themeforest.net/item/book-your-travel-online-booking-wordpress-theme/5632266?_ga=1.249210757.308390105.1492018660)
В сайт нужно загружать описания походов с различных сайтов и далее поддерживать актуальность. Список сайтов в конце задания.
На каждом сайте своя структура, но информацию с них нужно перевести к общей структуре – поля описание, стоимость, продолжительность, даты начала, регион, организатор, различные метки и шкалы: сложность, тип, сезон, направление, дети и пр. Текст в описаниях часто форматирован и содержит картинки в теле. Так же картинки и видео есть у туров на всех сайтах.
Актуальность проверять по совпадению текста в поле описание, название, даты, количество фотографий с предыдущей сохранённой версией.
На каждом сайте-доноре по каждому туру есть метки и шкалы – их нужно собирать; если их несколько в строку, то разделять на отдельные метки («теги»). Регионы нужно так же переводить в теги. Далее все теги подвергать преобразованию по таблице в единые теги и списки, что бы потом можно было отбирать и искать на общем сайте-каталоге.
Нужно разработать связку парсера с сайтом-каталогом, которая будет выполнять задачи:
1. Парсинг по расписанию и по фильтрам туров на сайтах-донорах.
2. Разбор полей и преобразование их в поля каталога (сложение текста, распознавание цены, сохранение или удаление форматирования, перенос фото-видео вложений, распознавание дат начала и окончания/длительности походов, информации об инструкторах/организаторах, региона, тегов, перевода шкал в числа.
3. Определение изменений от предыдущей закачки.
4. Перевода названий регионов, тегов, шкал в названия тегов и элементов списков на сайте-каталоге.
a. При отсутствии информации из источника по каким-либо обязательным тегам и спискам – выставлять предопределённые значения.
5. Заливка новых и изменённых туров в каталог на WP.
6. Проход по ссылкам залитых туров для создания языковых переводов с помощью готового плагина.
Сайты-доноры: вложение