Мария Голицына, Diagnocat: На что способен виртуальный ассистент стоматолога?
Многие жители российских городов, записавшиеся на прием стоматолога, не знают, что вместе с доктором осмотр пациента осуществляет его виртуальный помощник – рекомендательный онлайн-сервис Diagnocat. Умный ассистент внедрен не только в 400 российских клиниках, но и в других странах - Европе, Северной и Латинской Америке. Мария Голицына - ведущий исследователь команды Diagnocat в области компьютерного зрения – тот человек, который, по сути, учит искусственный разум непростому искусству медицинской диагностики. О том, как это происходит, Мария рассказала TAdviser.
Мария, почему стоматология? Вы ведь выбирали совсем другую специальность в вузе?
Мария Голицына: На самом деле, я работаю по специальности. Я училась на факультете мехмата МГУ им. Ломоносова, там же защитила кандидатскую диссертацию по теме оптимального управления в области робототехники. По этой научной тематике были публикации, получен российский патент на разработанную технологию управления. А потом был период ИТ-консалтинга. Дело в том, что специалистами моего профиля, выпускниками МГУ всегда очень интересовались глобальные консалтинговые компании типа Deloitte, PricewaterhouseCoopers, Ernst&Young. И однажды я приняла предложение компании Accenture. Это был интересный профессиональный и жизненный опыт, но он меня убедил, что моя сфера – это все-таки не бизнес-аналитика, а научные исследования в области прикладной математики. Тем более, что область машинного обучения на моих глазах развивалась со скоростью курьерского поезда.
В сфере глубокого машинного обучения буквально каждые пару месяцев случались настоящие математические прорывы, например, в области генеративно-состязательных нейронных сетей (Generative Adversarial Networks, GAN). Интересные события происходили в области компьютерного зрения – взрывообразный рост различных технологий детекции, сегментации.
С особым вниманием я наблюдала за развитием направления машинного обучения с подкреплением (Reinforcement Learning, RL). В отличие от классического машинного обучения, технологии RL предполагают, что искусственный интеллект обучается в процессе взаимодействия с окружающей средой, а не на заранее подготовленных исторических данных. В целом Reinforcement Learning – это история про обучение так называемых агентов, которыми могут быть, например, роботы или компьютеры или любой другой носитель «разума». Это очень перспективная область машинного обучения, применение которой пока ограничивается простыми средами, которые хорошо поддаются математическому моделированию. Но будущее RL поистине безгранично! И мне очень захотелось не просто читать статьи, но и самой участвовать в развитии увлекательного направления машинного обучения. Стало понятно, что жизнь без исследовательского драйва скучна и однообразна. Хотелось исследовательской работы и применения своих знаний в области искусственного интеллекта.
И на что Вы променяли Accenture?
Мария Голицына: На корпорацию IBM, во внутренний data science стартап, который занимался проектами для нефтегазовой компании.. Одним из проектов, в котором я играла роль исследователя и тим лида был проект по предсказанию аварий во время бурения скважины. Надо сказать, что процесс бурения достаточно сложен и нередко сопровождается сбоями в работе оборудования и даже серьезными авариями. Стоимость ликвидации последствий таких аварий велика, и нефтяники поставили перед математиками задачу – научиться предсказывать возможную аварию до того, как она реально произошла, на основании данных, собираемых с множества датчиков. Мы экспериментировали с различными математическими подходами, и в результате предложили свой собственный уникальный метод кластеризации на временных рядах, которые описывали данные разных датчиков, размещенных на разном расстояние от долота. И помогли нефтяникам побороть эту серьезную проблему. Было оформлено два американских патента, опубликованы научные статьи. Участие в международных научных конференциях – корпорация это всегда поддерживала.
Разве может медицинский стартап конкурировать с такими условиями для научных исследований?
Мария Голицына: Да, может. В большой корпорации все процессы, даже творческие, очень забюрократизированы. Чтобы продвинуть какую-либо свою идею, нужно преодолеть огромное количество бюрократических препятствий. В этом смысле там работать тяжелее, чем в стартапе, где гораздо больше свободы для научного поиска, решения принимаются быстрее, и твои предложения быстро реализуются: решил свою задачу, и, условно, через неделю она работает в приложении. Это очень вдохновляет!
Правда, есть специфика – работать приходится без помощи команды data-инженеров. Все свои идеи нужно прорабатывать и реализовывать самостоятельно, то есть на сами исследовательские работы уходит не 100% рабочего времени, а 60-70%. Но меня лично это совсем не расстраивает: когда все главным образом зависит от тебя, это помогает двигаться вперед быстрее. Так что мой выбор – стартапы.Станислав Обухов, Т1 Иннотех: Автоматизация меняет функцию закупок
Вот почему три года назад я влилась в международную команду, которая занимается разработкой сервиса Diagnocat – умного помощника стоматолога. Коллектив уже довольно большой - порядка 70 человек работает в разных странах. Я лично отвечаю за разработку моделей определения патологий для панорамных и прицельных снимков.
Если Вы работаете со снимками, значит, нынешний этап Вашей профессиональной жизни связан с технологиями computer vision?
Мария Голицына: Наша программа предназначена для помощи стоматологам в описании и оценке данных специализированных стоматологических (дентальных) снимков компьютерной томографии (КТ). Мы ориентируемся на применение трехмерного рентгенографического диагностического аппарата конусно-лучевой компьютерной томографии (КЛКТ). КЛКТ имеет явные преимущества, по сравнению с традиционной медицинской КТ, в частности, более низкие дозы облучения, а также возможность импорта и экспорта индивидуальных цифровых изображений и коммуникаций в медицине (DICOM) и реконструированных данных без перекрытия для других приложений. Для нас также важно, что КЛКТ может предоставлять трехмерные 3D-изображения с высоким разрешением без искажения и наложения кости и других зубных структур, которые можно увидеть при обычной рентгенографии.
Технологии компьютерного зрения помогают определять на этих снимках проблемные зоны и подсказывать доктору, на что стоит обратить внимание. А я являюсь ведущим исследователем команды ресерчеров.
Что умеет сервис Diagnocat?
Мария Голицына: Мы решаем две основных задачи. Первая - предсказание типа зуба: это настоящий зуб или имплантат или место, где должен быть зуб, - мы его называем «отсутствующий зуб». Плюс предсказывание номера зуба. Вторая задача - сегментация патологий, то есть определение типа заболевания, например, признаки кариеса (это сложная задача для диагностики с помощью КЛКТ), пародонтит, кистозные поражения, поражения челюсти и т.д. Всего мы умеем выявлять около трех десятков различных патологических состояний зубов и десен.
О том, как работает программа, можно судить по приведенному изображению. Именно так выглядят данные, которые поступают доктору, работающему с сервисом Diagnocat.
В данном случае наш алгоритм определил наличие всех зубов и оценил их состояние. Красные - проблемные зубы, белые - здоровые, фиолетовые - те, которые уже лечили, например, на них обнаружена пломба. В нашем интерфейсе можно увидеть более детальное описание каждого зуба. Например, в этом примере вы видите информацию по 15-му зубу. Это пример того, как работают модели computer vision, которые разрабатывает моя команда.
Можно ли утверждать, что искусственный интеллект лучше диагностирует патологии, чем человек-доктор?
Мария Голицына: Знаете, вообще не стоит противопоставлять человека-доктора умной программе. Каждый занимается своим делом: доктор лечит пациентов, а Diagnocat помогает ему делать свою работу быстрее и качественнее. Diagnocat в роли умного и расторопного ассистента рядом с внимательным опытным доктором – это идеальное сочетание для больного. Почему так? Два года назад мы проводили клиническое сравнительное исследование с участием 24 докторов, которые работали с компьютерными томограммами челюсти. Исследование показало, что число патологий, выявляемых с помощью виртуального помощника, вырастает на 30%. И это было два года назад, за которые мы смогли еще более улучшить работу алгоритмов.
Дело в том, что человек обычно акцентирует внимание на тех зонах интереса, которые сразу бросились в глаза, и приступает к лечению. А искусственный интеллект с одинаковым вниманием просматривает все зубы. Образно говоря, врач, как правило, смотрит на локальные проблемы, а ИИ видит всю картину целиком и не пропускает ни один зуб. Diagnocat справляется с обнаружением даже весьма сложных состояний, таких как эндодонтическое лечение (пропущенный канал, короткое пломбирование, пустоты в корневой пломбе). Очень сложными для выявления являются ранние кариозные поражения, которые распространяются только на эмаль. Обычно они остаются необнаруженными. Но для Diagnocat мелкие анатомические детали вместе с оценкой кариеса и потери костной массы в периодонте являются сигналом для детального анализа.
В том клиническом исследовании, о котором я упоминала, отмечалось, что Diagnocat изо всех сил пытался обнаружить очень редкие анатомические конфигурации зуба, например, 5 каналов или 4 корня. Соответственно, стоматологи, а также радиологи могут использовать Diagnocat в качестве вспомогательного инструмента для повышения точности диагностики, планирования лечения и прогнозирования результатов лечения.
Diagnocat в качестве второго мнения способен повысить точность медицинской диагностики в условиях сжатых сроков. Кроме того, у рентгенологов как правило, много времени отнимает подготовка клинической документации. А отсутствие стандартизации привело к различиям в документации в среде рентгенологов. В этих условиях ИИ может гарантировать, что радиологи будут получать очень ценные данные, одновременно повышая эффективность и точность подготовки документации.
Почему вы занялись созданием собственной модели, а не использовали какой-либо готовый фреймворк ML?
Мария Голицына: В этой задаче есть немало подводных камней. Например, помимо того, что необходимо предсказывать наличие той или иной патологии, еще нужно предсказывать свойства этих патологий. Ведь мало сказать, что конкретный зуб поврежден кариесом. Нужно еще уточнить, какая поверхность зуба повреждена и определить глубину проникновения кариеса. Таким образом, задача из стандартной превращается в многоуровневую, которой требуется свежий взгляд и новое решение.
Например, в нашей диагностической программе реализуется технология не только 2D-, но и 3D- сегментации. При этом возникают новые специфические задачи, скажем, найти оптимальную структуру 3D-сегментов. В этом направлении мы работаем достаточно давно. Еще в 2018 г. мы опубликовали наш алгоритм искусственного интеллекта (позже названный Diagnocat), который реализовал объемную сегментацию зубов.
Вообще данная область исследований – весьма наукоемкая. По результатам наших исследовательских работ опубликован ряд научных статей, в том числе, в одном из самых авторитетных научных журналов мира Nature, где описано определение патологии на сканах КТ и сегментация челюстно-лицевой анатомии на КТ при помощи моделей компьютерного зрения.
Какие ключевые технологии компьютерного зрения использует сервис Diagnocat?
Мария Голицына: Как я уже сказала, эта область развивается очень активно. Недавно произошла, можно сказать, революция – в обиходе computer vision появились технологии, родившиеся в недрах обработки естественного языка (Natural Language Processing, NLP). Это явление получило название семантической сегментации изображения. Ее смысл заключается в том, что каждому пикселю присваивается определенная метка. Сравните это с традиционными алгоритмами классификации изображений, где одна метка ставится в соответствие всему изображению!
Методы глубокого обучения, применяемые для семантической сегментации, позволяют достичь удивительных результатов в области компьютерного зрения. Помните, каким потрясением стало не так давно появление модели визуальных трансформеров DALL-E, которая генерирует изображения по описанию, используя для этого миллионы и миллиарды признаков? Так вот, DALL-E состоит из двух нейросетей, одна из которых — GPT, алгоритм интеллектуальной обработки естественного языка, который разрабатывает сообщество OpenAI.
Некоторые специалисты полагают, что мы вступаем в новую эру Machine Learning. Может быть, звучит несколько пафосно, но в целом я согласна: на пересечении computer vision и NLP рождаются новые технологические достижения. Например, началось активное применение методов семантической сегментации для решения задачи сегментация медицинских изображений. В частности, она позволяет обнаруживать на медицинском снимке скрытые элементы, что особенно актуально, скажем, для выявления опухолевых аномалий. С помощью трехмерной семантической сегментации снимков можно оценивать объемы органов человеческого тела.
Собственно, одной из ключевых тем наших исследований, с точки зрения задач машинного обучения, была семантическая сегментация, включая, например, сегментирование фона и периапикальной патологии, то есть изображения ткани, окружающей верхушку корня зуба.
К числу популярных архитектур, используемых для семантической сегментации, относятся полносверточная сеть FCN (Fully Convolutional Network) и ее модернизация U-Net с дополнительными skip-связями между выходами с блоков свертки и соответствующими им входами блока транспонированной свертки на том же уровне.
Подход Diagnocat к диагностике также реализуется на базе глубокой сверточной нейронной сети, использующей U-Net-подобную архитектуру. Так, модуль локализации зуба и нумерации реализован в виде объемной сети архитектуры U-Net, выполняющей семантическую сегментацию по 54 классам: фон, 52 возможных зуба и дополнительный класс для нештатных зубов.
На следующем этапе каждая локализованная область зуба расширяется с помощью некоторого контекста и передается в дескриптор, который определяет вероятность того, что зуб будет поражен набором условий. Дескриптор является основным классификационным модулем и реализован как ансамбль архитектуры ResNeXt с интегрированными блоками сжатия и возбуждения и архитектурой DenseNet, выполняющей множественные бинарные классификации по 25 классам.
Еще три модуля дополнительно исследуют каждый объем зуба на предмет выявления пародонтита, кариеса и периапикального поражения. Встроенные локализаторы трех модулей классификации реализованы в виде объемных сетей архитектуры U-Net, выполняющих семантическую сегментацию.
Важный элемент онлайнового сервиса – высокая скорость получения диагностического результата. Как вы добиваетесь высокой производительности инференса (результирующего вывода) при обработке очень больших объемов данных о зубах, свойственных семантической сегментации?
Мария Голицына: Для того чтобы обрабатывать большие объемы данных в достаточно мелком масштабе, мы используем подход «от крупного к мелкому»: производится последовательность инференсов, причем, каждый – в меньшем масштабе, по отношению к предыдущему. Результаты предыдущих более грубых этапов используются для управления и ускорения вывода на следующих более точных этапах. Такое сочетание грубой и точной структуры позволяет создавать высококачественные маски сегментации, не теряя при этом эффективности вывода.
С точки зрения математики, на каждом этапе решается задача семантической сегментации. Например, на первом (грубом) этапе весь объем данных анализируется сразу за один прямой проход через нейронную сеть. При этом модель работает с грубым разрешением - в масштабе 1 мм. Цель этого этапа - выполнить грубую сегментацию анатомических структур эффективным с точки зрения вычислений способом. Затем результаты первого этапа передаются в качестве входных данных для второго (точного) этапа. Вторая стадия позволяет получать корректные маски сегментации за счет уточнения результатов грубой стадии. Она реализована как семантическая сегментация на основе патчей. Основная идея этого подхода заключается в обучении нейронной сети на небольших участках исходных изображений (а не на целых изображениях), что приводит к существенному сокращению требуемых вычислительных ресурсов. Во время вывода мы извлекаем участки из исходного изображения с перекрытием и пропускаем их через модель один за другим. Затем результаты объединяются для формирования окончательных масок сегментации. На этом этапе обучение и вывод выполняются в воксельном масштабе 0,25 мм.
Мы реализуем и грубые, и точные этапы как задачу семантической сегментации, где фон и каждый анатомический элемент интерпретируются как отдельный класс. Используем для этих целей нейронную сеть 3D U-Net .
Качественная модель распознавания патологий – это здорово. Но как вы решаете проблемы данных для обучения? Наличие полных качественных данных для обучения модели – это ахиллесова пята сложных технологий машинного обучения.
Мария Голицына: Вы правы. Задача, действительно, нетривиальная, ведь данные, получаемые с панорамных или прицельных снимков, обычно зашумленные. Есть и проблема неполной разметки данных для обучения. Например, на многих исходных данных отмечен, например, только кариес, а на других – только пародонтит. Нам нужно было научиться использовать все доступные данные для обучения модели, а не выбрасывать снимки из-за того, что они не полностью размечены.
Над какими перспективными задачами Ваша команда работает сегодня?
Мария Голицына: В настоящее время мы, например, ведем разработку виртуальных отчетов для ортодонтов, то есть докторов, которые занимаются исправлением прикуса и положения зубов. Ортодонту важно понять, насколько симметрично лицо, и что требуется сделать с челюстью пациента. Наш виртуальный помощник, анализируя фотографии и компьютерную томографию, поможет помочь ортодонту определить асимметрию.