Фильтрация базы данных.
Нужно состыковать 2 базы данных и удалить дубли.
Базы грязные, это значит что нет единого стандарта для записи телефонов, почты, названия сайта, названий компании и так далее.
Исходная база - 23 500 компаний.
База с которой нужно сверить и удалить дубли - 6 000 компаний.
Сверку нужно будет сделать по различным параметрам, главное найти дубли, это может быть и название сайта (но не везде оно есть) и регион кампаний + название сайта, или компании, или совпадение в номере телефона, или ....
Ну и так далее.
Дубли нужно будет выделить и сохранить в отдельном файле.
Отдельно дополнительный вопрос и доп. бюджет на вычищение базы на 23 500 компаний и приведение ее к единому стандарту в записях (название, телефон, e-mail, сайт, контакт ответственного лица и так далее).