Смэтчить данные (найти наиболее похожие друг на друга данные)

Гость7 лет в сервисе
Данные заказчика будут вам доступны после подачи заявки
29.07.2018

Часть 1. Метчинг анализов

Что нужно сделать?

Найти одинаковые анализы среди списков анализов 5 разных лабораторий

Сколько это данных?

5 лабораторий, у каждой лаборатории ~1500 анализов. Данные, которые доступны про каждый анализ: название + биоматериал. 

Что такое одинаковые анализы?

Необходимое условие:

Биоматериалы анализов совпадают, т.е., например, анализы являются одинаковыми, если их биоматериалом является сыворотка крови или кровь с ЭДТА.  

Примечание 1: есть одна лаборатория (CMD), у которой не прописано, что это точно за биоматериал, а прописано только общими словами, например, кровь (в случае с этой лабораторией достаточно совпадения биоматериала с точностью до смысла, т.е. ”кровь” = ”кровь с ЭДТА” или ”кровь” = ”кровь с натрием”)

Примечание 2: биоматериалы у разных лабораторий могут называться по-разному, например, ”кровь с ЭДТА” или ”кровь (ЭДТА)”, но у одной лаборатории названия одинаковых биоматериалов идентичны (я понимаю, что очень легко было привести к единому виду в excel, но у меня как назло полетел офис)

Достаточное условие:

а) анализы, называющиеся одинаково

б) анализы, называющиеся немного по-разному, но обозначающие одно и то же 

Примеры одинаковых анализов:

1) Антитела к кардиолипину (Anticardiolipin antibodies) класса IgM, сыворотка крови

2) Антитела к кардиолипину IgM (Антикардиолипиновые антитела IgM, АКЛ IgM, Cardiolipin Antibodies IgM, aCL antibody IgM, APAs IgM), кровь

3) Антитела к кардиолипину, IgM, сыворотка крови

1) Исследование соскобов с шейки матки и цервикального канала, мазок

2) Исследование соскобов шейки матки и цервикального канала (Examination of Scrapings: Cervix and Cervical Canal ), мазок из влагалища

1) Кобальт (моча), моча

2) Кобальт в моче (Cobalt), моча

Как предполагается искать одинаковые анализы?

Поиск конкретных методы метчинга всегда ваш выбор, но мне кажется, что наиболее эффективно делать следующим образом: искать по словам и/или символам те, которые максимально друг с другом совпадают, а далее руками проверять, действительно ли они одинаковые

В каком формате хочется увидеть результат?https://docs.google.com/spreadsheets/d/1I9qBzMNoUzLd5WXuo6J1LA70mDEKVVlCaYbkzjfmjQw/edit?usp=sharing 

Что является критерием достижения результата?

1) Я бы хотела, чтобы ~70% анализов каждой лаборатории было найдено соответствие хотя бы в двух лабораториях. При этом, этот процент может меняться от лаборатории к лаборатории. Например, у одной лабы ~500 видов анализов, поэтому совершенно точно для 90% можно найти соответствующий хотя бы в одной лаборатории.У другой лаборатории ~2500 анализов, поэтому логично, что иметь соответствия будут вряд ли более 70% анализов

2) Хотя бы для 400 анализов найдено соответствие во всех 5 лабораторияхЭто примерные критерии, которые я выделила, исходя из тех данных, которые видела. Если у вас получится лучше - очень круто, если, наоборот, зайдете в тупик на меньших процентах - присылайте данные, посмотрим

Часть 2. Метчинг чек-апов

Что такое чек-апы?

Это, так называемые, ”комплексные проверки”: паки из нескольких анализов (обычно 10-20), которые клиент сдает единоразово 

Сколько это данных?

5 лабораторий, у каждой лаборатории ~50-100 чек-апов, каждый чек-ап состоит  ~ из 7-15 анализов. 

Что нужно сделать?

Найти все чек-апы, которые совпадают хотя бы на 60% и указать процент совпадений

Как это сделать?

Взять чек-апы одной лаборатории за начало отсчета и найти в каждой лаборатории все чек-апы, совпадающие с данным миниум на 60% ( = содержащие хотя бы 60% одинаковых анализов). Одинаковые анализы определяются из части 1. 

В каком формате хочется увидеть результат?https://docs.google.com/spreadsheets/d/1I9qBzMNoUzLd5WXuo6J1LA70mDEKVVlCaYbkzjfmjQw/edit?usp=sharing