ARISE перепрограммирует медицинский ИИ

0
4

Заголовки кричат об этом каждый день. ИИ сдает экзамены. ИИ обыгрывает экспертов.

Но что это значит на самом деле? Мы исчерпываем способы оценивать инструменты, которые работают быстрее, чем мы способны их понять. На сцену выходит сеть ARISE.

Врачи из Гарварда и Стэнфорда объединили усилия, чтобы ответить на запутанные вопросы, которые никто не хочет задавать. Что работает в хаотичных условиях отделения неотложной помощи? Что такое клиническое мышление на самом деле? Когда ошибается человек? А когда — машина?

«Нам нужно определить, как выглядит медицинская суперинтеллигенция.»

Магический доктор

Джонатан Чен кое-что знает об иллюзиях.

Он врач, специалист по данным и профессиональный фокусник. Его бэкграунд необычен. Он поступил в колледж в 13 лет. Программировал годами, прежде чем получить степени MD и PhD. Теперь он преподает в Стэнфорде.

Он рассматривает большие языковые модели (LLM) как фокусы.

Главное правило? Отвлечение внимания. Все смотрят на правую руку. Чен следит за левой. Когда на сцену вышел ChatGPT, он не радостно приветствовал его. Он искал точки сбоя. Он искал сбой в матрице.

В конце 2024 года его команда обнаружила нечто странное. LLM диагностировали заболевания у пациентов лучше, чем врачи, использующие ИИ. И даже лучше, чем врачи, работающие в одиночку.

Это нарушило золотое правило. Старая догма гласила, что врачи плюс ИИ будут превосходить каждую из этих групп по отдельности. Но этого не произошло.

Почему? Тайминг. Врачи использовали ИИ как Google. Они ему не доверяли.

Команда Чена попробовала снова. Они создали специализированную модель. Они научили врачей правильно общаться с ней. Совместная работа в реальном времени.

Результаты изменились. Врачи с ИИ превзошли врачей, работающих в одиночку. Они сравнялись и с ИИ. По-прежнему не обыграв его, но очень близко.

Тот же результат был получен в задачах по ведению пациентов. ARISE теперь финансирует создание «полетного симулятора» для медицины. По их надеждам, практика делает мастера.

Это оставляет полевой вопрос, который преследует исследователей. Если робот превосходит команду «человек-робот», то что именно мы тестировали?

Предупреждение историка

Адам Родман говорит быстро. Мыслит он еще быстрее.

Гарвардский врач-интернист и историк медицины. Он утверждает, что ничего нового в этом нет. Стетоскопы изменили нас. Пенициллин изменил нас. Электронные медкарты (EHR) подорвали здоровье наших спин.

Но ИИ действует на более высоком уровне. Он поглощает когнитивные функции. Он пожирает само мышление.

Родман копает глубоко. Он указывает на Вторую мировую войну. Теория обнаружения сигналов подарила нам чувствительность и специфичность. В 1959 году двое ученых, Ледли и Ластед, написали, что диагностика — это просто математика. Вероятность. Логика.

За этим последовали компьютеры. Затем медицинские школы тоже подхватили эту тенденцию.

Мы обучаем резидентов по жестким рамкам. Номинограммы. Эмпирические правила. «Это отражает то, как думают компьютеры», — говорит Родман. — А не то, как ведут себя настоящие эксперты. Реальные врачи быстры. Интуитивны. Их мышление нелинейно. Беспорядочно.

Сейчас мы создаем ИИ, чтобы он имитировал абстрактные правила. А не человеческий хаос.

Поэтому стандарты оценки устарели. Случаи из New England Journal of Medicine. Классические клинические описания.

GPT-4 успешно решил две трети из них. Впечатляет? Да. Ограничено? Тоже да. Бенчмарки насыщаются. Врачи — это не эталоны для сравнения; это переменные.

Родман копнул глубже. Журнал Science опубликовал их новые выводы. Модель o1 от OpenAI разгромила врачей в исторических задачах.

Что хуже, она превзошла настоящих гарвардских интернистов в анализе данных EHR для экстренных случаев. 76 пациентов. Реальный хаос.

«Теперь нам нужны проспективные клинические испытания.»

Родмана не впечатляет ажиотаж. Ему нужны рандомизированные контролируемые испытания (РКИ). Ему нужны результаты для пациентов, а не баллы бенчмарков.

Мостостроитель

Итан Гоу чувствует себя как рыба в воде и в больнице, и в Кремниевой долине.

Госпиталист. Создатель политики в Сингапуре. Консультант NHS. Исполнительный директор стартапа. Теперь — исполнительный директор ARISE в Стэнфорде. Он говорит на языках обоих миров.

Он ненавидит стандартизированные тесты для оценки ИИ. Экзамены USMLE проверяют память. Медицина проверяет интуицию. Пациенты не читают из учебников. Они приходят истекая кровью. Сбитые с толку. Сложные.

Высокий балл не делает хорошим врачом. Высокий балл не спасает жизни.

Отрасль движется к симуляциям. Оценка по критериям вместо бинарных ответов.

Гоу продвигается дальше. Бенчмарки должны быть точными. Сортировка (триаж). Диагностика. Лечение. Коммуникация. Каждому нужен свой стандарт.

Здесь появляется MAST. Медицинский тест на суперинтеллигенцию ИИ.

Он охватывает диагностику, ведение пациентов, безопасность и агентные рабочие процессы. Он оценивает ИИ по сравнению с реальными врачами. А не просто моделей в вакууме.

Одна из частей MAST называется NOHARM. Она отслеживает вред. Как часто LLM дает плохой совет?

Топовые модели по-прежнему ошибаются в 22% случаев. В основном это пропуски. Упущение важной информации.

Удивительно? Они все же были безопаснее, чем общие врачи-интернисты. А ансамбли — комбинация моделей — были безопаснее, чем одиночные модели.

Затем есть MedAgentBench. Может ли ИИ назначать лекарства? Агрегировать лабораторные данные? Делать ли это в реальной EHR на базе FHIR?

В середине 2026 года лучшая модель достигла 70%. Она застряла на шагах после второго.

Шесть месяцев спустя. Anthropic выпустила Opus 4.6. Она показала 92%.

Скорость. Время течет. Бенчмарк мертв, еще не будучи опубликованным.

Поэтому ARISE создал PhysicianBench. Многошаговые задачи. Реальное выполнение.

Он просуществует, возможно, шесть месяцев.

Затем наступает обрыв. Если ИИ достигнет суперинтеллигенции — превзойдет лучших клиницистов в значимых задачах в реальных условиях, — мы сломаем систему оценок.

Как 37-й ход AlphaGo. Он запутал человеческих мастеров, потому что казался иррациональным для нас. Но он был правильным для победы.

Согласие с экспертами исчезнет.

Нас заставят вернуться к реальности. Рандомизированные контролируемые испытания. Твердые результаты. Стал ли пациент лучше? Или хуже?

Открытый финал

Чен видит, что перемены грядут. Родман их ждет. Гоу к ним готовится.

Они согласны в одном. Определение «врача» меняется.

Верны ли они, пока не доказано.

ИИ приоткрывает дверь в клиническое мышление. Он задает вопрос: кто мы такие? Где мы помогаем? Когда мы должны отойти в сторону?

Вопросы больше не академические. Они клинические. Они актуальны прямо сейчас.

И у нас нет идеальных ответов. Пока что. 🩺