Система распределенного поиска

Алексей15 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
14.02.2011

Если вы программист - математик, вы мне нужны.

Требуется написать систему по unix платформу.

Суть работы системы:

В базе хранится большое количество строковых данных.

В систему подается так же строковая информация.

Скрипты сравнивают входящие данные с теми, что хранятся в базе, и возвращают отчет о сравнении.

Пример.

Текстовый файл формата

строка1

строка2

..

строка1000

зажат в архив и закачан на сервер. На сервер скрипт распаковывает файл, и пробегая по каждой строке сравнивает ее с тем, что есть в базе. Если такая строка встречается в базе, откладывает ее в файлномер1. Если такая строка не встречается в базе, откладывает ее в файлномер2.

В основном логика такая. Следует сразу учесть, что общее количество хранимых строк в базе может приближаться к миллиарду. =)

Поэтому и требуется грамотно распределить базы, таблицы, построить правильно индексы, чтобы на обработку входящих данных уходило как можно меньше времени.

Возможно потребуются дополнения.