Сверточная нейронная сеть для распознавания слов в базах данных

Гость4 года в сервисе
Данные заказчика будут вам доступны после подачи заявки
01.06.2021

Основная идея проекта - создать простую CNN с 1-2 сверточными слоями, которая сможет распознавать совпадения слов из разных баз данных.

У меня есть файл .csv с разными названиями из баз данных в верхнем регистре , которые содержат буквы латинского алфавита, кириллицу и цифры (пример: ZIEB_342TI_90837; IRON_SURV23 и т. Д.).

На первом этапе требуется создать массив данных, включающий в себя 26 букв латинского алфавита, 33 букв кириллицы и цифры от 0 до 9 и пронумеровать каждый символ по порядку (должно получиться 68 полей).

Длина каждого названия берется не более 50 символов.

Это делается для того, чтобы каждый символ в слове сравнивался с символом в массиве, и при совпадении зажигался соответствующий нейрон (например, в названии DUSX4359 первая буква D, в массиве она пронумерована цифрой 4 , что означает, что для первой буквы данного слова зажигается четвертый нейрон, а все остальные - нули), и это происходит для каждого последующего символа, так что на вход нейронной сети подается вектор 50 * (33 + 26 + 10).

Ну а далее простая сверточная нейронная сеть обучается на этих данных.

Заявки фрилансеров