Требуется написать "вычиталку" файлов.
Требуется написать "вычиталку" файлов (точнее, "keeper")
Входные данные:
1й файл, состоящий из как минимум из 1млн строк
2й файл состоит из подстрок, которые надо искать в 1м файле (файл скорее всего будет содержать такое же кол-во строк, или немногим меньшее, чем в 1м файле)
На выходе:
файл, содержащий все строки, у которых подстроки хоть содержались во 2м файле
Пример:
1й файл:
abc
abcd
efgh
fgh
ijklmn
opqrs
tuabc
2й файл:
bc
gh
qrs
выходной файл:
abc
abcd
efgh
fgh
opqrs
tuabc
Необходимо разработать такой алгоритм, чтобы обработка 1 миллиона записей заняла не более 10-12 часов (при условии, что 1й и 2й файл содержит одинаковое кол-во записей)
То есть тупой перебор здесь не подойдет, т.к. слишком медленно. Поэтому должен быть некий изощренный алгоритм с хитрыми сортировками, разбиение на темповые файлы, etc...
поэтому скриптовые языки типа php не подойдут точно, так как медленно работает со строками.
Оплата сдельная. ICQ 469210040