Найдите исполнителя для вашего проекта прямо сейчас!
Разместите заказ на фриланс-бирже и предложения поступят уже через несколько минут.

Небольшой парсер для ничем не примечательного сайта oxygen21.biz. Удостоился места в портфолио за то, что был написан полностью в системе компьютерной алгебры Wolfram Mathematica, а затем развернут в облаке Wolfram Cloud. Возможно кого-то заинтересует, почему такой простой парсер нельзя было просто написать на C#, например?

Дело в том, что сайт был в стиле "попробуй спарсить, если сможешь". На сайте были представлены лишь фото, а описание и цены в отдельном файле excel. Найти их в таблице можно было только по коду, который в некоторых случаях был лишь на картинке. Иногда на картинках было несколько кодов, иногда вообще не было, а порою коды были вверху. Особо интересным был случай, когда код на картинке не совпадал с кодом в прайсе и приходилось искать наиболее похожий код. Сам файл excel заслуживал отдельного внимания.

В общем работы было много, но встроенные средства работы с изображениями и интеллектуального анализа данных Mathematica мне помогли. Это был мой первый парсер где пришлось использовать работу с матрицами, распознавание образов и компьютерную морфологию, а также писать собственную систему распознавания символов с помощью классификатора по методу логистической регрессии.

Приложение было сделано как модуль для программы VKProductCopy, которая представлена в этом портфолио.