Фильтрация базы данных.

Татьяна15 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
16.02.2016

Нужно состыковать 2 базы данных и удалить дубли. 

Базы грязные, это значит что нет единого стандарта для записи телефонов, почты, названия сайта, названий компании и так далее. 

Исходная база - 23 500 компаний. 

База с которой нужно сверить и удалить дубли - 6 000 компаний. 

Сверку нужно будет сделать по различным параметрам, главное найти дубли, это может быть и название сайта (но не везде оно есть) и регион кампаний + название сайта, или компании, или совпадение в номере телефона, или .... 

Ну и так далее. 

Дубли нужно будет выделить и сохранить в отдельном файле. 

Отдельно дополнительный вопрос и доп. бюджет на вычищение базы на 23 500 компаний и приведение ее к единому стандарту в записях (название, телефон, e-mail, сайт, контакт ответственного лица и так далее).