Система распределенного поиска
Если вы программист - математик, вы мне нужны.
Требуется написать систему по unix платформу.
Суть работы системы:
В базе хранится большое количество строковых данных.
В систему подается так же строковая информация.
Скрипты сравнивают входящие данные с теми, что хранятся в базе, и возвращают отчет о сравнении.
Пример.
Текстовый файл формата
строка1
строка2
..
строка1000
зажат в архив и закачан на сервер. На сервер скрипт распаковывает файл, и пробегая по каждой строке сравнивает ее с тем, что есть в базе. Если такая строка встречается в базе, откладывает ее в файлномер1. Если такая строка не встречается в базе, откладывает ее в файлномер2.
В основном логика такая. Следует сразу учесть, что общее количество хранимых строк в базе может приближаться к миллиарду. =)
Поэтому и требуется грамотно распределить базы, таблицы, построить правильно индексы, чтобы на обработку входящих данных уходило как можно меньше времени.
Возможно потребуются дополнения.