Программа по обработке строк
Задача похожая на эту http://stackoverflow.com/questions/4733537/comparing-40-million-lines-in-a-file-with-6-million-ist-items-in-python
Нужно сравнить два txt файла на наличие похожих строк и удалить их из одного из файлов, при этом удаляя также и строки где совпадают словосочетания при перестановке слов местами, например,
в первом файле слово1 слово2 слово 3
удаляем во втором строки
слово1 слово2 слово 3
слово1 слово 3 слово2
слово 3 слово2 слово1
Далее, нужно чтобы было возможность исключать не учитывать некоторые символы при этом, их подгружаем в txt файл, например, чтобы можно было добавить туда спецсимволы, предлоги.
Ну и самое главное и сложное то, что первый файл весит 12GB и строк в нем около 200млн, второй файл гораздо меньше 200-250мб.
Из второго удаляются строки, которые есть в первом.
Среда Windows XP. Скорость обработки желательно не более 5 часов.
Предварительно нужно будет Вам протестировать у себя, создав файл с размером в 12Gb, например копипастом txt файла а потом объединить его в Total Commander.
Нужно будет добавить функцию фильтрпции, то есть вывод в output файл только тех строк из 12GB файла которые содержат указанное слово без учета регистра