Сграбить контент из разных источников и скомпилировать свой уникальный

Максим19 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
04.07.2006

ОБЩЕЕ ОПИСАНИЕ ПРОЕКТА

Есть каталоги/магазины с описанием определенной группы товаров.

Все они представляют собой соверешенно разные сайты разных владельцев.

Объединяет их конкретная товарная тематика.

Например, детские игрушки.

Нам необходим свой каталог по данной товарной группе.

И создать его мы хотим на основе компилянта каталогов чужих сайтов.

ВАЖНО!!!

Каждая позиции нашего каталога должна компилироваться на основе информации по соответствующей позиции из нескольких чужих каталогов. Дубли должны удаляться, как четкие, так и схожие по степени смешения (вероятно потребуется некий анализатор контента).

Например, если в трех чужих каталогах есть следующие описания позиции "Плюшевый мишка":

Каталог 1 - Он большой и теплый.

Каталог 2 - Сделан из меха плюшевого чебурашки.

Каталог 3 - Большой и теплый. Коричневого цвета.

...то наша позиция "Плюшевый мишка" должна иметь вид:

"Он большой и теплый. Сделан из меха плюшевого чебурашки. Коричневого цвета."

(Предложение "Большой и теплый" из 3го каталога удалено, т.к. принято за дубль. Похожая формулировка уже была в описании из первого каталога).

Кроме того,

есть список форумов по данной группе товаров.

Необходимо содрать у них посты, отсортировать по совпадению с конкретными наименованиями товаров либо темами обсуждения, затем объединить по этому признаку. И в итоге сделать базу своего форума, где каждый из наших топиков будет являться компилянтом постов из нескольких сграбленных форумов.

ТЕХНИЧЕСКИЕ АСПЕКТЫ

1. Используемая база - mysql.

2. Структуры базы, в которую будет собираться информация, нет. Ее нужно создать.

3. Вид получаемого результата: либо готовые данные в базе, либо готовый сайт "каталог+форум" (назовите вашу цену за оба варианта).

Важно помнить, что все каталоги и форумы НЕ однородны.

А нам на основании всех этих источников надо создать ЕДИНУЮ базу.