Программа по обработке строк

Сергей17 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
12.02.2012

Задача похожая на эту http://stackoverflow.com/questions/4733537/comparing-40-million-lines-in-a-file-with-6-million-ist-items-in-python

Нужно сравнить два txt файла на наличие похожих строк и удалить их из одного из файлов, при этом удаляя также и строки где совпадают словосочетания при перестановке слов местами, например,

в первом файле слово1 слово2 слово 3

удаляем во втором строки

слово1 слово2 слово 3

слово1 слово 3 слово2

слово 3 слово2 слово1

Далее, нужно чтобы было возможность исключать не учитывать некоторые символы при этом, их подгружаем в txt файл, например, чтобы можно было добавить туда спецсимволы, предлоги.

Ну и самое главное и сложное то, что первый файл весит 12GB и строк в нем около 200млн, второй файл гораздо меньше 200-250мб.

Из второго удаляются строки, которые есть в первом.

Среда Windows XP. Скорость обработки желательно не более 5 часов.

Предварительно нужно будет Вам протестировать у себя, создав файл с размером в 12Gb, например копипастом txt файла а потом объединить его в Total Commander.

Нужно будет добавить функцию фильтрпции, то есть вывод в output файл только тех строк из 12GB файла которые содержат указанное слово без учета регистра