ChatGPT подделывает данные клинических испытаний
Но медицинская экспертиза позволяет выявить фальшивку
Искусственный интеллект способен создать массив данных, очень похожих на результаты настоящих клинических испытаний. В эксперименте, проведенном итальянскими исследователями, ChatGPT вместе с Advanced Data Analysis (ADA) «сравнили» результаты двух хирургических методик и выдали «результат» (ошибочный), что одна из них лучше другой.
«Наша цель состояла в том, чтобы показать, как всего за несколько минут можно получить набор данных, не имеющих отношения к действительности, но выглядящий как реальные данные исследования,— объясняет ведущий автор исследования Джузеппе Джаннаккаре, глазной хирург из Университета Кальяри в Италии.— И знаете, что самое печальное? Что искусственный интеллект может “доказать” преимущество неэффективного вмешательства».
Способность ИИ фабриковать убедительные данные усиливает обеспокоенность исследователей и редакторов научных журналов по поводу честности исследований. «Одно дело, когда генеративный ИИ используется просто для создания текстов, чтобы обмануть программное обеспечение, настроенное вылавливать плагиат,— возмущается Элизабет Бик, микробиолог и консультант по вопросам добросовестности научных данных из Сан-Франциско, Калифорния.— Но генерирование прямо фальшивых данных, выглядящих реалистически,— очень серьезная угроза всему научному процессу. Нечестным ученым будет очень легко “собрать” показатели несуществующих пациентов, создать массив анкет, которые никто никогда не заполнял, предъявить результаты экспериментов на животных, которых никогда не существовало».
Авторы попросили ChatGPT и ADA создать набор данных о людях с заболеванием глаз, называемым кератоконусом, которое вызывает истончение роговицы и может привести к нарушению фокусировки и ухудшению зрения. Для 15–20% людей с этим заболеванием лечение включает пересадку роговицы. Существуют два варианта этой операции.
Первый метод — сквозная кератопластика — предполагает хирургическое удаление всех поврежденных слоев роговицы и замену их здоровой тканью донора. Второй — глубокая послойная кератопластика — предполагает замену только переднего слоя роговицы.
Авторы поручили ИИ сфабриковать данные, подтверждающие, что послойная кератопластика лучше сквозной. Для этого они поставили ИИ задачу визуализировать форму роговицы после операции — это важный критерий эффективности вмешательства, а также «собрать» данные о зрении больных до и после кератопластики.
Данные, сгенерированные с помощью ИИ, были «собраны» со 160 мужчин и 140 женщин и, как и предполагало задание, подтвердили, что сквозная кератопластика хуже послойной. Это прямо противоречит результатам настоящих клинических испытаний.
Фальшивый набор данных по просьбе журнала изучили Джек Уилкинсон, биостатистик из Манчестерского университета, Великобритания, и его коллега Зевен Лу. Их анализ выявил забавные дефекты работы ИИ — в частности, многие из «участников эксперимента» фигурировали под именами, свойственными людям другого пола. В списке «больных», кроме того, было непропорционально много людей с возрастом, оканчивавшимся на 7 или 8. Более серьезная ошибка — отсутствие корреляции между предоперационными и послеоперационными показателями остроты зрения.
Авторы исследования признают, что в данных ИИ есть недостатки, которые можно обнаружить при внимательном изучении. Но тем не менее, говорит Джаннаккаре, «если очень быстро взглянуть на набор данных, трудно распознать их нечеловеческое происхождение источника данных».
Уилкинсон предупреждает, что достижения в области генеративного искусственного интеллекта вскоре смогут исправить эти не слишком заметные ошибки. И тогда может разразиться настоящая катастрофа.
По материалам статьи Nature.