Разработать блок парсинга базы данных товаров
Требуется разработать или найти и применить алгоритм идентификации товаров в базе данных.
Пример: у нас есть товары:
Проволока ДКРХМ 1,5 БТ НХ9,5-МНМцАК40-1,5 3 ГОСТ 1790-77
Проволока ДКРХМ 1,5 КТ НХ9,5-МНМцАК40-1,5 3 ГОСТ 1790-77
Проволока алюмель НМцАК-2-2-1, диаметр (мм) 1,2 ГОСТ 1790-77
Проволока алюмель НМцАК-2-2-1, диаметр (мм) 3,2 ГОСТ 1790-77
Проволока суперфехраль GS SY, диаметр (мм) 3,5 ГОСТ 1790-77
Проволока хромель НХ-9,5, диаметр (мм) 1,2 ГОСТ 1790-77
Проволока хромель НХ-9,5, диаметр (мм) 3,2 ГОСТ 1790-77
В разных базах даных названия товаров могут иметь отличия. Например обозначаться так:
Проволка ДКРХМ 1,5 БТ НХ 9,5-МНМцАК40-1,5 3 ГОСТ 1790-77
Проволка ДКРХМ 1,5 КТ НХ 9,5-МНМцАК40-1,5 3 ГОСТ 1790-77
Проволока НМцАК-2-2-1, D (мм) 1,2 ГОСТ 1790-77
Проволока НМцАК-2-2-1, D (мм) 3,2 ГОСТ 1790-77
Проволока суперфехраль GS SY, диаметр (мм) 3,5 ГОСТ 1790-77
Пров. хромель НХ-9,5, диам. (мм) 1,2 ГОСТ 1790-77
Проволока хромель НХ-9,5, диам. (мм) 3,2 ГОСТ 1790-77
Но у нас для определения каждого товара есть его шаблон, где описан класс товара - "Проволока" - марки - например "ДКРХМ", гост - например "1790-77" и т.д.... то есть каждое свойство товара имеет свой код и значение этого свойства. Могут быть заданы варианты обозначений и сокращений.
В каких-то шагах процесс может быть передан на уточнение оператору. Например - выбор какого-то варианта алгоритма. Но цель - минимизировать труд оператора по разбору базы.
Эта задачка - по большей части исследовательская. Без опыта написания сложных алгоритмов разбора текста - решить ее сложно. Но тот кто решит - большой респект и финансовая благодарность от нашей компании!
Стартом к работе будет служить правильная концепция решения задачи. Оплата - после достижения удовлетворительных результатов тестирования на живой базе товаров.
Срок реализации - 2-3 мес. Оплата может быть скорректирована по результатам утвержденного плана на тестирование алгоритма.