Высокотехлологичный семантический граббер-парсер

Никита19 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
27.05.2010

Нужно разработать мощного бота, собирающего данные с указанных источников с пост-очисткой от рудиментов

Данные: источник сбора, товар, цена

Бот будет устанавливаться на серьезную локальную машину с хорошим пропускным каналом. Работать должен по крону.

Бот должен по таймеру залезать на каждый требуемый ресурс (список ресурсов определяет пользователь), собирать информацию и складывать ее в базу данных в требуемом виде. Информация - это прайс-лист с товарами, в одном прайс-листе может быть от 1000 до 30000 товаров, т.о. речь идет о достаточно большом массиве данных.

Для определения сущности "товар", "обязательные параметры товара", а также параметра "цена" должна использоваться подключаемая база знаний, т.е. глоссарий терминов и выражений.

Задача бота - собирать информацию с 100-500 ресурсов в день и обновлять данные в БД. Предположительно, сохранять данные можно в SQL

Вариант написания 100 шаблонов - не подходит, нужно более технологичное решение. Шаблоны постоянно могут меняться и решение становится неустойчиво. Речь идет о прототипе мини-поисковой системы с настраиваемыми параметрами поиска и сохранения результатов.

Предполагаемая технологическая основа - mnogosearch + некоторые части сфинкса+regexp для отдельных частей анализатора. Интересует взаимодействие с серьезными людьми, готовыми реализовать весь комплекс (проектирование, разработка, настройка, отладка). Предложите свой вариант, обсудим.

Работу начинаем с полноценного обширного тз и согласованных сроков. Рассматриваем только серьезных исполнителей. Оплачиваем поэтапно.