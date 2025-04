Специалист по data mining

Занимаюсь статистическими расчётами, анализом экспериментальных данных, анализом биологических сетей.

Имею 20 научных статей в рецензируемых журналах согласно базе данных scopus:

https://www.scopus.com/authid/detail.uri?authorId=37001897300

Другие профили:

https://scholar.google.ru/citations?user=T9Va4rQAAAAJ&hl=en

http://assa.bionet.nsc.ru/open/person/735/

Примеры решённых мной задач:

Задача 1:

Программа PDBSiteScan (http://wwwmgs.bionet.nsc.ru/mgs/gnw/pdbsitescan/) осуществляет поиск групп аминокислотных остатков в 3d-структуре белка похожих на активные центры белков (структурные аналоги), результатом работы этой программы является регулярный текстовый файл, описывающий структурные аналоги активных центров, который помимо прочего, содержит номера аминокислотных остатков рассматриваемого белка, включённых в структурные аналоги, обнаруженные в данном белке. Второй тип текстовых файлов - .pdb (http://www.rcsb.org/pdb/home/home.do) содержит 3D-координаты рассматриваемого белка.

Моя задача состояла в парсинге файлов с целью вычисления средних координат структурных аналогов и расчёт расстояний от активного центра белка и от случайных аминокислотных остатков до структурных аналогов с дальнейшим статистическим выводом, относительно расстояний между структурными аналогами и активными центрами белков.

Я написал Perl-программы, осуществляющие парсинг, вычисления координат, осуществляющие случайный выбор аминокислотных остатков.

В результате нами было показано, что структурные аналоги имеют тенденцию располагаться близко к активным центрам белков (E.S.Teeys, V.A. Ivanisenko. Distribution of active site structural analogs in enzyme 3D-structures: computer analysis, Sixth International Conference On Bioinformatics of Genome Regulation and Structure, 2008)

Задача 2:

Реляционная база данных ANDSystem (https://www.ncbi.nlm.nih.gov/pubmed/25881313) содержит глобальную генную сеть, представляющую собой граф, вершинами которого являются гены, а рёбрами — регуляторные и другие типы взаимодействий между генами.

Задача состояла в оценке точности метода классификации функциональных и нефункциональных сетей на основании количества связей в ANDSystem внутри известных функциональных групп генов человека (базы данных Gene Ontology Annotation, OMIM, KEGG) и в случайно выбранных группах, взятых в качестве отрицательного контроля.

Я написал серию Perl-программ для обработки данных из баз Gene Ontology Annotation, OMIM, KEGG, чтобы привести данные в удобоваримый формат - в отдельные файлы для процессов, содержащие список генов приписанный данному процессу. Далее был написан bash-конвейер, который получал на вход директорию с файлами, содержащими списки идентификаторов генов делал MySQL запрос к ANDSystem, подсчитывал количество связей между генами данной группы, затем проводил 100-кратную перестановку лейблов вершин (Perl), строил нормальное распределение и применял t-критерий (язык R). Затем результаты со значениями p-value сводил в один файл. Далее, используя p-value в качестве classifier score, с помощью программы на R строил ROC-кривые.

Также был осуществлён другой вариант конвейера, где проводилась 1000-кратная пермутация, и далее p-value определялось как доля случайных сетей с большим числом связей по сравнению с анализируемой сетью (Perl), но этот вариант показал такое же качество классификации при 10-кратном увеличении времени работы.

Задача 3:

В курсе по рисованным роликам преподавалась длительная (10-30 минут) операция ручной престановки путей в .svg-файле (в Adobe Illustrator) с целью, чтобы сделать прорисовку картинки менее хаотичной, более похожей на естественную ручную прорисовку.

Мной была написана программа, которая парсит .svg файл (это xml), сортирует слои согласно координатам путей в результате чего прорисовка становится более естественной.

Время расчёта занимает не более секунды, правда бывает нужно подправить файл вручную до 5 минут.

Помимо приведённых примеров программ, написано множество программ на Perl для манипуляции с таблицами и списками в формате tab separated values, такими как перевод таблицы отношений к матрице смежности, сведение отдельных списков сравниваемых идентификаторов к булевой таблице «присутствие/отсутствие», переформатирование данных для построения гистограмм, написаны аналоги bash-скриптов, такие как подсчёт повторяющихся значений в списке и т. п. Много программ написано по поводу внутреннего формата программы ANDSystem, который представляет из себя .xml-файл, содержащий граф, описывающий взаимодействия между генами: написаны такие скрипты как вычленение связей в виде таблицы отношений, расчёт степеней вершин, фильтрация связей по наличию слов в тексте атрибута связей и т. п.

Написал несколько программ на Python (Perl не предусмотрен создателями курса) в рамках курса “Основы теории графов” (https://stepik.org/certificate/4a6caa3e5eecf9e9e7a4a2cf0c8f2156b90e7095.pdf), такие как поиск Эйлерова цикла в графе, определение числа компонет связности с помощью алгоритма поиска в глубину.

Имею также сертификаты курсов “Анализ данных в R” (https://stepik.org/certificate/6ba5d645dc872ee5072570b0c4783486ad902aa9.pdf) , “Основы программирования на R” (https://stepik.org/certificate/a83f2f971e6b5d64155178c9da7d4e4a46e321d4.pdf) и “Программирование на Python” (https://stepik.org/certificate/7e577f44c321fc793dad5b867b331a7d14b70666.pdf).

Вхожу в топ-200 пользователей по знаниям на платформе stepik.org (https://stepik.org/users/345481).