Требуется написать "вычиталку" файлов.

Запорожнев16 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
25.02.2009

Требуется написать "вычиталку" файлов (точнее, "keeper")

Входные данные:

1й файл, состоящий из как минимум из 1млн строк

2й файл состоит из подстрок, которые надо искать в 1м файле (файл скорее всего будет содержать такое же кол-во строк, или немногим меньшее, чем в 1м файле)

На выходе:

файл, содержащий все строки, у которых подстроки хоть содержались во 2м файле

Пример:

1й файл:

abc

abcd

efgh

fgh

ijklmn

opqrs

tuabc

2й файл:

bc

gh

qrs

выходной файл:

abc

abcd

efgh

fgh

opqrs

tuabc

Необходимо разработать такой алгоритм, чтобы обработка 1 миллиона записей заняла не более 10-12 часов (при условии, что 1й и 2й файл содержит одинаковое кол-во записей)

То есть тупой перебор здесь не подойдет, т.к. слишком медленно. Поэтому должен быть некий изощренный алгоритм с хитрыми сортировками, разбиение на темповые файлы, etc...

поэтому скриптовые языки типа php не подойдут точно, так как медленно работает со строками.

Оплата сдельная. ICQ 469210040

Заявки фрилансеров