Универсальный парсер на Python
Нужно создать Веб приложение парсер на Python.
После перехода на адрес, например www.my-parser8674.com мы авторизируемся иможем начинать управлять профилями парсера.
Начальная область работы - это список профилей всех парсеров. Можно создатьновый профиль, удалить профиль, редактировать профиль, запустить сбор данных.
При редактировании профиля нам отображается карточка выбранного профиля,лог всех прошедших ранее операций и результаты сбора данных в выбранном профиле.
В карточке профиля у нас есть возможность настроить условия сбора данных, аименно:
пример алгоритма создания профиля:
оператор указывает адрес, который его интересует, подтверждает и в этом жеокне открывается встроенный в парсер браузер с анализатором всех DOM узлов
страницы. Браузер визуально должен отображать 1-в-1 то, что отображается в
обычном браузере. Дальше клиент добавляет новую сущность в справочник профиля:
например, создает свойство с кодом "Price", название
"Цена", в браузере визуально кликает на цене, ему отображаются доп
настройки парсинга этого поля - тип (число, текст, html, картинка, ссылка,
массив), удалять слова (возможно удалять перечень слов), условия (если равно/не
равно/содержит/не содержит тогда ставить какое-то свое значение, например
"-1"). Для примера рассмотрим еще такой тип как "массив".
После выбора данного типа у нас появляется два доп. поля настройки элементов:
название и значение - для них мы аналогично мышкой в браузере указываем все
точно так же. В результате, основная настройка будет читать таблицу или список
как массив, а доп настройки будут разбивать ее на массив с набором нужных
значений.
ПОДРОБНЕЕ В ФАЙЛЕ