Написать скрипт на T-SQL для удаления дублей из БД
Необходимо написать скрипт на T-SQL, который:
1. находит дублирующиеся компании в базе RBKDB (RBKDB..Companies) по признаку:
80% названия (либо аббревиатура)
сайт (если есть)
регион
часть адреса (город либо улица)
Для поиска компании по названию и адресу можно использовать полнотекстово индексированные представления RBKDB..CompanySearchView и RBKDB..AddressSearchView
2. сохраняет в одну компанию-оригинал информацию по дублям:
любой из сайтов оригинала или дублей (Org_Site)
любое из полей Legal_Form
поля Tags дублей через запятую
поля Source дублей через запятую
телефоны (RBKDB..Phones)
факсы (RBKDB..Faxes)
ящики электронной почты (RBKDB..Emails)
контактные лица (RBKDB..ContactPersons)
3. заменяет все ссылки на дубли на ссылку на оригинал в таблицах:
связка компаний и категорий (RBKDB..CompanyCategoryLinks)
ссылки на компании в проектах (AistDB..ProjectActivities), учитывая уникальность пары (ID проекта, ID компании) и оставляя запись по приоритету:
наибольшее значение поля Stage
положительная реакция (ID_Reaction ссылается на RBKDB..Reactions - поле IsGood)
наличие комментария
4. удаляет ссылки на дубли
5. удаляет дубли
Структура базы данных в прикрепленном файле.
Демо версию Базы Данных для тестирования пришлю лично.
Приветствуется наличие опыта в написании скриптов на T-SQL.
В заявке прошу указать точную стоимость и срок работы.
По всем возникшим вопросам обращайтесь.