Высокотехлологичный семантический граббер-парсер
Нужно разработать мощного бота, собирающего данные с указанных источников с пост-очисткой от рудиментов
Данные: источник сбора, товар, цена
Бот будет устанавливаться на серьезную локальную машину с хорошим пропускным каналом. Работать должен по крону.
Бот должен по таймеру залезать на каждый требуемый ресурс (список ресурсов определяет пользователь), собирать информацию и складывать ее в базу данных в требуемом виде. Информация - это прайс-лист с товарами, в одном прайс-листе может быть от 1000 до 30000 товаров, т.о. речь идет о достаточно большом массиве данных.
Для определения сущности "товар", "обязательные параметры товара", а также параметра "цена" должна использоваться подключаемая база знаний, т.е. глоссарий терминов и выражений.
Задача бота - собирать информацию с 100-500 ресурсов в день и обновлять данные в БД. Предположительно, сохранять данные можно в SQL
Вариант написания 100 шаблонов - не подходит, нужно более технологичное решение. Шаблоны постоянно могут меняться и решение становится неустойчиво. Речь идет о прототипе мини-поисковой системы с настраиваемыми параметрами поиска и сохранения результатов.
Предполагаемая технологическая основа - mnogosearch + некоторые части сфинкса+regexp для отдельных частей анализатора. Интересует взаимодействие с серьезными людьми, готовыми реализовать весь комплекс (проектирование, разработка, настройка, отладка). Предложите свой вариант, обсудим.
Работу начинаем с полноценного обширного тз и согласованных сроков. Рассматриваем только серьезных исполнителей. Оплачиваем поэтапно.