Смэтчить данные (найти наиболее похожие друг на друга данные)
Часть 1. Метчинг анализов
Что нужно сделать?
Найти одинаковые анализы среди списков анализов 5 разных лабораторий
Сколько это данных?
5 лабораторий, у каждой лаборатории ~1500 анализов. Данные, которые доступны про каждый анализ: название + биоматериал.
Что такое одинаковые анализы?
Необходимое условие:
Биоматериалы анализов совпадают, т.е., например, анализы являются одинаковыми, если их биоматериалом является сыворотка крови или кровь с ЭДТА.
Примечание 1: есть одна лаборатория (CMD), у которой не прописано, что это точно за биоматериал, а прописано только общими словами, например, кровь (в случае с этой лабораторией достаточно совпадения биоматериала с точностью до смысла, т.е. ”кровь” = ”кровь с ЭДТА” или ”кровь” = ”кровь с натрием”)
Примечание 2: биоматериалы у разных лабораторий могут называться по-разному, например, ”кровь с ЭДТА” или ”кровь (ЭДТА)”, но у одной лаборатории названия одинаковых биоматериалов идентичны (я понимаю, что очень легко было привести к единому виду в excel, но у меня как назло полетел офис)
Достаточное условие:
а) анализы, называющиеся одинаково
б) анализы, называющиеся немного по-разному, но обозначающие одно и то же
Примеры одинаковых анализов:
1) Антитела к кардиолипину (Anticardiolipin antibodies) класса IgM, сыворотка крови
2) Антитела к кардиолипину IgM (Антикардиолипиновые антитела IgM, АКЛ IgM, Cardiolipin Antibodies IgM, aCL antibody IgM, APAs IgM), кровь
3) Антитела к кардиолипину, IgM, сыворотка крови
1) Исследование соскобов с шейки матки и цервикального канала, мазок
2) Исследование соскобов шейки матки и цервикального канала (Examination of Scrapings: Cervix and Cervical Canal ), мазок из влагалища
1) Кобальт (моча), моча
2) Кобальт в моче (Cobalt), моча
Как предполагается искать одинаковые анализы?
Поиск конкретных методы метчинга всегда ваш выбор, но мне кажется, что наиболее эффективно делать следующим образом: искать по словам и/или символам те, которые максимально друг с другом совпадают, а далее руками проверять, действительно ли они одинаковые
В каком формате хочется увидеть результат?https://docs.google.com/spreadsheets/d/1I9qBzMNoUzLd5WXuo6J1LA70mDEKVVlCaYbkzjfmjQw/edit?usp=sharing
Что является критерием достижения результата?
1) Я бы хотела, чтобы ~70% анализов каждой лаборатории было найдено соответствие хотя бы в двух лабораториях. При этом, этот процент может меняться от лаборатории к лаборатории. Например, у одной лабы ~500 видов анализов, поэтому совершенно точно для 90% можно найти соответствующий хотя бы в одной лаборатории.У другой лаборатории ~2500 анализов, поэтому логично, что иметь соответствия будут вряд ли более 70% анализов
2) Хотя бы для 400 анализов найдено соответствие во всех 5 лабораторияхЭто примерные критерии, которые я выделила, исходя из тех данных, которые видела. Если у вас получится лучше - очень круто, если, наоборот, зайдете в тупик на меньших процентах - присылайте данные, посмотрим
Часть 2. Метчинг чек-апов
Что такое чек-апы?
Это, так называемые, ”комплексные проверки”: паки из нескольких анализов (обычно 10-20), которые клиент сдает единоразово
Сколько это данных?
5 лабораторий, у каждой лаборатории ~50-100 чек-апов, каждый чек-ап состоит ~ из 7-15 анализов.
Что нужно сделать?
Найти все чек-апы, которые совпадают хотя бы на 60% и указать процент совпадений
Как это сделать?
Взять чек-апы одной лаборатории за начало отсчета и найти в каждой лаборатории все чек-апы, совпадающие с данным миниум на 60% ( = содержащие хотя бы 60% одинаковых анализов). Одинаковые анализы определяются из части 1.
В каком формате хочется увидеть результат?https://docs.google.com/spreadsheets/d/1I9qBzMNoUzLd5WXuo6J1LA70mDEKVVlCaYbkzjfmjQw/edit?usp=sharing