Написать скрипт на T-SQL для удаления дублей из БД

Светлана12 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
15.02.2013

Необходимо написать скрипт на T-SQL, который:

1. находит дублирующиеся компании в базе RBKDB (RBKDB..Companies) по признаку:

80% названия (либо аббревиатура)

сайт (если есть)

регион

часть адреса (город либо улица)

Для поиска компании по названию и адресу можно использовать полнотекстово индексированные представления RBKDB..CompanySearchView и RBKDB..AddressSearchView

2. сохраняет в одну компанию-оригинал информацию по дублям:

любой из сайтов оригинала или дублей (Org_Site)

любое из полей Legal_Form

поля Tags дублей через запятую

поля Source дублей через запятую

телефоны (RBKDB..Phones)

факсы (RBKDB..Faxes)

ящики электронной почты (RBKDB..Emails)

контактные лица (RBKDB..ContactPersons)

3. заменяет все ссылки на дубли на ссылку на оригинал в таблицах:

связка компаний и категорий (RBKDB..CompanyCategoryLinks)

ссылки на компании в проектах (AistDB..ProjectActivities), учитывая уникальность пары (ID проекта, ID компании) и оставляя запись по приоритету:

наибольшее значение поля Stage

положительная реакция (ID_Reaction ссылается на RBKDB..Reactions - поле IsGood)

наличие комментария

4. удаляет ссылки на дубли

5. удаляет дубли

Структура базы данных в прикрепленном файле.

Демо версию Базы Данных для тестирования пришлю лично.

Приветствуется наличие опыта в написании скриптов на T-SQL.

В заявке прошу указать точную стоимость и срок работы.

По всем возникшим вопросам обращайтесь.

Заявки фрилансеров