Удаление дублей, используя Яндекс Директ

Сергей17 років у сервісі
Дані замовника будуть вам доступні після подання заявки
17.03.2012

Программа/скрипт удаляет дубли с помощью http://direct.yandex.ru/registered/main.pl?cmd=ForecastByWords Директа.

Принцип: если вы отправите, например 3 слова слон, слона, слону в директ, то он примет только первое, т.к. остальные являются дублями.

Итак, на входе 2 csv файла с нным кол-вом столбцов, разделенные запятыми или точка с запятой,

1 input file - основной

2 input file - дополнительный

Программа берет поочередно, сначала первую фразу из 1 input file из столбца PhraseYD и плюс к ней поочередно с начала списка набор фраз из 2 input file (столько фраз сколько поместятся в ограничения на колво символов в Директе, обрезать фразы нельзя). Отправляется в директ, где 1ая по порядку фраза обязательна должна быть из 1 input file. Если все остальные из 2 input file были дублями, то они помечаются как Yes в столбце csv DoubleYD, потом эту же первую фразу отправляем со следующей по очереди пачкой фраз из 2 input file. И так далее.

Это функция поиска дублей между 2мя файлами. Вторая функция - поиск дублей внутри одного файла по этому же принципу, первая фраза сравнивается с последующими, потом вторая фраза с последующими.

Дополнительно но не обязательно: возможно ли сделать многопоточность используя прокси, чтобы ускорить процесс?

Объем большой, скорость важна.

Заявки фрілансерів