Удаление дублей, используя Яндекс Директ
Программа/скрипт удаляет дубли с помощью http://direct.yandex.ru/registered/main.pl?cmd=ForecastByWords Директа.
Принцип: если вы отправите, например 3 слова слон, слона, слону в директ, то он примет только первое, т.к. остальные являются дублями.
Итак, на входе 2 csv файла с нным кол-вом столбцов, разделенные запятыми или точка с запятой,
1 input file - основной
2 input file - дополнительный
Программа берет поочередно, сначала первую фразу из 1 input file из столбца PhraseYD и плюс к ней поочередно с начала списка набор фраз из 2 input file (столько фраз сколько поместятся в ограничения на колво символов в Директе, обрезать фразы нельзя). Отправляется в директ, где 1ая по порядку фраза обязательна должна быть из 1 input file. Если все остальные из 2 input file были дублями, то они помечаются как Yes в столбце csv DoubleYD, потом эту же первую фразу отправляем со следующей по очереди пачкой фраз из 2 input file. И так далее.
Это функция поиска дублей между 2мя файлами. Вторая функция - поиск дублей внутри одного файла по этому же принципу, первая фраза сравнивается с последующими, потом вторая фраза с последующими.
Дополнительно но не обязательно: возможно ли сделать многопоточность используя прокси, чтобы ускорить процесс?
Объем большой, скорость важна.