Требуется написать "вычиталку" файлов.

Запорожнев16 лет в сервисе

Данные заказчика будут вам доступны после подачи заявки

25.02.2009

Требуется написать "вычиталку" файлов (точнее, "keeper")

Входные данные:

1й файл, состоящий из как минимум из 1млн строк

2й файл состоит из подстрок, которые надо искать в 1м файле (файл скорее всего будет содержать такое же кол-во строк, или немногим меньшее, чем в 1м файле)

На выходе:

файл, содержащий все строки, у которых подстроки хоть содержались во 2м файле

Пример:

1й файл:

abc

abcd

efgh

fgh

ijklmn

opqrs

tuabc

2й файл:

qrs

выходной файл:

abc

abcd

efgh

fgh

opqrs

tuabc

Необходимо разработать такой алгоритм, чтобы обработка 1 миллиона записей заняла не более 10-12 часов (при условии, что 1й и 2й файл содержит одинаковое кол-во записей)

То есть тупой перебор здесь не подойдет, т.к. слишком медленно. Поэтому должен быть некий изощренный алгоритм с хитрыми сортировками, разбиение на темповые файлы, etc...

поэтому скриптовые языки типа php не подойдут точно, так как медленно работает со строками.

Оплата сдельная. ICQ 469210040

PHP

Требуется написать "вычиталку" файлов.

Заявки фрилансеров