Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Задача похожая на эту http://stackoverflow.com/questions/4733537/comparing-40-million-lines-in-a-file-with-6-million-ist-items-in-python

Нужно сравнить два txt файла на наличие похожих строк и удалить их из одного из файлов, при этом удаляя также и строки где совпадают словосочетания при перестановке слов местами, например,

в первом файле слово1 слово2 слово 3

удаляем во втором строки

слово1 слово2 слово 3

слово1 слово 3 слово2

слово 3 слово2 слово1

Далее, нужно чтобы было возможность исключать не учитывать некоторые символы при этом, их подгружаем в txt файл, например, чтобы можно было добавить туда спецсимволы, предлоги.

Ну и самое главное и сложное то, что первый файл весит 12GB и строк в нем около 200млн, второй файл гораздо меньше 200-250мб.

Из второго удаляются строки, которые есть в первом.

Среда Windows XP. Скорость обработки желательно не более 5 часов.

Предварительно нужно будет Вам протестировать у себя, создав файл с размером в 12Gb, например копипастом txt файла а потом объединить его в Total Commander.

Нужно будет добавить функцию фильтрпции, то есть вывод в output файл только тех строк из 12GB файла которые содержат указанное слово без учета регистра

12 лет назад
rabotareferat
Сергей 
43 годаРоссия
16 лет в сервисе
Был
11 лет назад
181 отзыв(-2)
  • Похожие заказы
  • $33

    Нужна програмка которая по шаблону подставляет вместо макросов слова из списков, построчно. Нужна поддержка 5-10 макросов. (можно с добавлением) Как это должно выглядеть: Пользователь выбирает значения макросов, загружает списки слов или фраз на каждый маркер, прога потом построчно ...

    Прикладное ПО1 исполнитель
    Закрыт
    12 лет назад
  • Нужно создать обложку для zippro на delphi. Обложка для одной игры. Подробнее можете ознакомиться на самом сайте zippro.ru Оставляйте цены и сроки.

    Прикладное ПОнет заявок
    Закрыт
    12 лет назад
  • $250

    Платформа: Delphi 7 + MS SQL Server 2005/2008 Express Edition. На сервере есть хранимка, текст хранимки предоставляется Заказчиком. Для справки: хранимка выполняет синхронизацию данных с удаленной базой. Задачи: 1. Нужна возможность асинхронного запуска и контроля выполнения хранимки ...

    Закрыт
    12 лет назад
  • Нужно создать десктопную программу-ускоритель Интернета. Понятно что Интернет особо ускорить нельзя, но кое-что сделать можно. Как минимум программа должна уметь установить настройки в браузере которые немножко ускоряют Интернет: Блокировка флеша и рекламы, увеличение кеша и др.

    Закрыт
    12 лет назад
  • Требуется написание программы для сбора заданий в игре аллоды онлайн для сайта базы данных по игре. Цель вытащить квесты из игры для сайта, дать возможность, другим игрокам играя собирать квесты для сайта и отправлять их. Т.е. ...

    Прикладное ПОнет заявок
    Закрыт
    12 лет назад
  • $500

    Требуется специалист по распознаванию образов на изображениях, желательно с опытом работы под OpenCV. Задача такова: - Имеется фрагмент фотографии с человеческим глазом (может быть и правый, и левый) - Исходная фотография может иметь различный угол наклона, освещённость и ...

    Закрыт
    12 лет назад
  • Требуется программка для обновления истории в MT4 В файлах истории, которые лежат тут: ...MT4\history\1233\USDJPY240.hst хранится история катировок, которая записывается в данный файл не потоком, а после того, как мы открыли график инструмента на таком-то тайм фрейме, после чего закрыли ...

    Прикладное ПОнет заявок
    Закрыт
    12 лет назад