Насколько хороши ИИ-врачи в медицинских беседах?

Насколько хороши ИИ-врачи в медицинских беседах?
фото: https://hms.harvard.edu/news/how-good-are-ai-clinicians-medical-conversations

На первый взгляд

Исследователи разрабатывают новый способ более надежной оценки способности моделей ИИ принимать клинические решения в реалистичных сценариях, которые максимально точно имитируют взаимодействие в реальной жизни.

Анализ показывает, что большие языковые модели отлично справляются с постановкой диагноза на основе вопросов экзаменационного типа, но с трудом справляются с этой задачей на основе разговорных записей.

Исследователи предлагают набор рекомендаций по оптимизации производительности инструментов ИИ и приведению их в соответствие с реальной практикой перед интеграцией в клинику.

Инструменты искусственного интеллекта, такие как ChatGPT, рекламировались за их обещание облегчить нагрузку на врачей, сортируя пациентов, собирая истории болезни и даже предоставляя предварительные диагнозы. Эти инструменты, известные как большие языковые модели, уже используются пациентами для понимания своих симптомов и результатов медицинских тестов.

Но хотя эти модели ИИ демонстрируют впечатляющие результаты в стандартизированных медицинских тестах, насколько хорошо они справляются с ситуациями, которые более точно имитируют реальный мир?

Больше новостей о HMS можно найти здесь

Согласно результатам нового исследования, проведенного учеными Гарвардской медицинской школы и Стэнфордского университета, дела обстоят не так уж и хорошо.

Для своего анализа, опубликованного 2 января в журнале Nature Medicine , исследователи разработали оценочную структуру — или тест — под названием CRAFT-MD (Система оценки разговорного мышления для тестирования в медицине ) и применили ее к четырем большим языковым моделям, чтобы увидеть, насколько хорошо они работают в условиях, максимально приближенных к реальному взаимодействию с пациентами.

Все четыре большие языковые модели хорошо справились с вопросами в стиле медицинского экзамена, но их результаты ухудшились, когда они включились в разговоры, более точно имитирующие взаимодействие в реальном мире.

По словам исследователей, этот разрыв подчеркивает двойную потребность: во-первых, в создании более реалистичных оценок, которые лучше измеряют пригодность клинических моделей ИИ для использования в реальном мире, и, во-вторых, в улучшении способности этих инструментов ставить диагнозы на основе более реалистичных взаимодействий до их внедрения в клинику.

По словам исследовательской группы, инструменты оценки, такие как CRAFT-MD, могут не только более точно оценивать модели ИИ с точки зрения их пригодности в реальных условиях, но и могут помочь оптимизировать их работу в клинике.

«Наша работа раскрывает поразительный парадокс: в то время как эти модели ИИ отлично справляются с экзаменами медицинской комиссии, они испытывают трудности с базовой перепиской во время визита к врачу, - сказал старший автор исследования Пранав Раджпуркар, доцент кафедры биомедицинской информатики в Институте Блаватника в HMS. - Динамическая природа медицинских разговоров — необходимость задавать правильные вопросы в правильное время, собирать воедино разрозненную информацию и рассуждать о симптомах — создает уникальные проблемы, которые выходят далеко за рамки ответов на вопросы с несколькими вариантами ответов. Когда мы переходим от стандартизированных тестов к этим естественным разговорам, даже самые сложные модели ИИ демонстрируют значительное падение точности диагностики».

Лучший тест для проверки реальной производительности ИИ

Сейчас разработчики проверяют производительность моделей ИИ, предлагая им ответить на медицинские вопросы с несколькими вариантами ответов, которые обычно берутся из национального экзамена для выпускников медицинских вузов или из тестов, которые проходят врачи-ординаторы в рамках их сертификации.

«Этот подход предполагает, что вся соответствующая информация представлена ​​четко и лаконично, часто с медицинской терминологией или модными словечками, которые упрощают процесс диагностики, но в реальном мире этот процесс гораздо более запутан, - сказала соавтор исследования Шрея Джохри, докторант в лаборатории Раджпуркара в HMS. - Нам нужна тестовая структура, которая лучше отражает реальность и, следовательно, лучше предсказывает, насколько хорошо будет работать модель».

CRAFT-MD был разработан как один из таких более реалистичных приборов.

Для имитации реальных взаимодействий CRAFT-MD оценивает, насколько хорошо большие языковые модели могут собирать информацию о симптомах, лекарствах и семейном анамнезе, а затем ставить диагноз. Агент ИИ используется для представления себя в качестве пациента, отвечая на вопросы в разговорном, естественном стиле. Другой агент ИИ оценивает точность окончательного диагноза, поставленного большой языковой моделью. Затем эксперты-люди оценивают результаты каждой встречи на предмет способности собирать соответствующую информацию о пациенте, диагностической точности при представлении разрозненной информации и соблюдения подсказок.

Исследователи использовали CRAFT-MD для тестирования четырех моделей ИИ — как фирменных, так и коммерческих и с открытым исходным кодом — на предмет их эффективности в 2000 клинических ситуациях, описывающих состояния, распространенные в первичной медико-санитарной помощи и в 12 медицинских специальностях.

Все модели ИИ продемонстрировали ограничения, особенно в их способности вести клинические беседы и рассуждать на основе информации, предоставленной пациентами. Это, в свою очередь, поставило под угрозу их способность собирать истории болезни и выставлять соответствующие диагнозы. Например, модели часто испытывали трудности с заданием правильных вопросов для сбора соответствующей истории болезни пациента, упускали важную информацию во время сбора истории болезни и испытывали трудности с синтезом разрозненной информации. Точность этих моделей снижалась, когда им предоставлялась открытая информация, а не ответы с несколькими вариантами ответов. Эти модели также работали хуже, когда участвовали в обмене мнениями — как и большинство реальных разговоров — а не в обобщенных разговорах.

Рекомендации по оптимизации реальной производительности ИИ

На основании этих результатов группа предлагает набор рекомендаций как для разработчиков ИИ, которые проектируют модели ИИ, так и для регулирующих органов, отвечающих за оценку и одобрение этих инструментов.

К ним относятся:

  • Использование разговорных открытых вопросов, которые более точно отражают неструктурированное взаимодействие врача и пациента при разработке, обучении и тестировании инструментов ИИ.
  • Оценка моделей на предмет их способности задавать правильные вопросы и извлекать наиболее важную информацию
  • Разработка моделей, способных отслеживать несколько разговоров и интегрировать информацию из них
  • Разработка моделей ИИ, способных интегрировать текстовые (заметки из разговоров) с нетекстовыми данными (изображениями, ЭКГ)
  • Разработка более сложных агентов ИИ, которые могут интерпретировать невербальные сигналы, такие как выражение лица, тон и язык тела.

Кроме того, исследователи рекомендуют, чтобы оценка включала как агентов ИИ, так и экспертов-людей, поскольку полагаться исключительно на экспертов-людей трудоемко и дорого. Например, CRAFT-MD превзошел оценщиков-людей, обработав 10 000 разговоров за 48–72 часа плюс 15–16 часов экспертной оценки. Напротив, подходы, основанные на людях, потребовали бы обширного набора и приблизительно 500 часов для моделирования пациентов (почти три минуты на разговор) и около 650 часов для экспертных оценок (почти четыре минуты на разговор). Использование оценщиков ИИ в качестве первой линии имеет дополнительное преимущество, поскольку исключает риск подвергания реальных пациентов непроверенным инструментам ИИ.

Исследователи заявили, что ожидают, что CRAFT-MD также будет периодически обновляться и оптимизироваться для интеграции усовершенствованных моделей искусственного интеллекта пациента.

«Как врач-ученый, я заинтересована в моделях ИИ, которые могут эффективно и этично дополнять клиническую практику, - сказала соавтор исследования Роксана Данешджоу, доцент кафедры биомедицинских данных и дерматологии в Стэнфордском университете. - CRAFT-MD создает структуру, которая более точно отражает реальные взаимодействия, и, таким образом, помогает продвигать область вперед, когда дело доходит до тестирования производительности моделей ИИ в здравоохранении».

Авторство, финансирование, раскрытие информации

Дополнительные авторы: Джаэхван Чон и Хонг-Ю Чжоу, Гарвардская медицинская школа; Бенджамин А. Тран, Джорджтаунский университет; Дэниел И. Шлессингер, Северо-Западный университет; Шеннон Вонгвибулсин, Калифорнийский университет в Лос-Анджелесе; Леандра А. Барнс, Чжо Ран Кай и Дэвид Ким, Стэнфордский университет; и Элиезер М. Ван Аллен, Институт рака Дана-Фарбер.

Работа была поддержана премией HMS Dean's Innovation Award и грантом Microsoft Accelerate Foundation Models Research, предоставленным Пранаву Раджпуркару. Джохри получил дополнительную поддержку через стипендию IIE Quad.

Daneshjou сообщил о получении личных гонораров от DWA, личных гонораров от Pfizer, личных гонораров от L'Oréal, личных гонораров от VisualDx, опционов на акции от MDAlgorithms и Revea вне представленной работы и патента на TrueImage, ожидающего рассмотрения. Шлессингер является соучредителем FixMySkin Healing Balms, акционером Appiell Inc. и K-Health, консультантом Appiell Inc. и LuminDx, а также исследователем для AbbVie и Sanofi. Ван Аллен является консультантом Enara Bio, Manifold Bio, Monte Rosa, Novartis Institute for Biomedical Research и Serinus Biosciences и оказывает исследовательскую поддержку Novartis, BMS, Sanofi и NextPoint. Ван Аллен владеет акциями Tango Therapeutics, Genome Medical, Genomic Life, Enara Bio, Manifold Bio, Microsoft, Monte Rosa, Riva Therapeutics, Serinus Biosciences и Syapse. Ван Аллен подал заявки на институциональные патенты на мутации хроматина и иммунотерапевтический ответ, а также методы клинической интерпретации, периодически консультирует по патентам Foley Hoag и входит в редакционную коллегию Science Advances.

Автор: ЕКАТЕРИНА ПЕШЕВА

 2 января 2025 г.