Определение дублей товаров по схожим артикулам

Александр7 років у сервісі
Дані замовника будуть вам доступні після подання заявки
03.03.2020

Исходные данные:

Две БД, 1 - товары с сайта, 2 - спарсенные товары

Проблема - разные поставщики/сайты по-разному пишут артикулы тех же позиций

Примеры:

1) ABCD 1234 или ABCD1234 или ABCD-1234

2) 11 222 3 или 112223 или 112223.0

3) другие вариации с 1-2 доп.символам/пробелами

По сути, основные данные (буквы и цифры) остаются теми же, различие в их разделителях, спец.символах.

Задача - написать алгоритм, распознающий дубли товаров между БД, чтобы не добавлять их на сайт.

Просьба указать:

- предварительные средства для решения

- примерное время

- сумму