Аннотации научных статей программы ChatGPT запутали ученых
Исследователям крайне затруднительно различить аннотации научных работ, написанные самим человеком от тех, что пишет искусственный интеллект.
Согласно препринту, опубликованному на сервере bioRxiv в конце декабря, чат-бот с искусственным интеллектом (ИИ) может создавать такие убедительные «фейковые» аннотации научных статей, что ученые часто не в состоянии распознать, составлен ли текст машиной или человеком. Исследователи расходятся во мнениях относительно значения данного феномена для будущего науки.
Профессор Сандра Вахтер (не участвовала в данном исследовании), изучающая технологии и их регулирование в разных сферах научного знания, в Оксфордском университете (Великобритания), крайне обеспокоена таким фактом. Она считает, что если сейчас ученое сообщество находится в ситуации, когда невозможно определить, что правда, а что нет, утрачивается посредничество [при рецензии научной работы или статьи — прим. перев.], которое необходимо для успешного разрешения спорных вопросов.
Чат-бот ChatGPT в ответ на запросы пользователя может создавать реалистичный текст, сходный с тем, что может написать человек. Этот чат-бот — «огромная лингвистическая модель». То есть система, в основе которой лежат нейронные сети, ключевой характеристикой которых является выполнение задач путем «переваривания» огромных объемов существующих текстов, созданных человеком. Компания-разработчик данного программного обеспечения OpenAI из Сан-Франциско (штат Калифорния) выпустила этот чат-бот 30 ноября 2022. Он полностью бесплатный.
С момента его выпуска исследователи столкнулись с этическими проблемами, связанными с применением приложения, потому что большую часть выдаваемых ботом текстов трудно отличить от того, что может написать человек. Ученые опубликовали препринт [2] и редакционную статью [3], созданные ChatGPT. После этого группа под руководством Кэтрин Гао из Северо-Западного университета (Чикаго, штат Иллинойс) воспользовалась ChatGPT для создания тезисов научных статей, чтобы проверить, смогут ли ученые распознать «искусственность» таких текстов.
Исследователи дали чат-боту задачу написать 50 рефератов медицинских исследований, основываясь на выборке, опубликованной в JAMA, The New England Journal of Medicine, The BMJ, The Lancet и Nature Medicine. Затем они сравнили сгенерированные программой тексты с исходными рефератами, пропустив их через детектор плагиата и детектор полученных данных ИИ [в качестве программного обеспечения-рецензента]. Затем авторы обратились к группе медицинских исследователей с просьбой обнаружить рефераты, которые создал ИИ.
Не привлекая излишнего внимания
Тезисы, сгенерированные ChatGPT, прошли проверку на плагиат: медиана оригинальности составила 100 %. Детектор полученных данных ИИ выявил, что 66 % тезисов были сгенерированы. Однако рецензенты-люди справились не намного лучше: только 68 % сгенерированных рефератов были распознаны как таковые, а 86 % — как «настоящие» (т.е., написанные человеком). Коллегия рецензентов неправильно идентифицировала 32 % сгенерированных рефератов (они их посчитали «настоящими»), и 14 % рефератов, написанных учеными, были расценены как сгенерированные.
Как заявляет Гао с соавт. в препринте, ChatGPT создает правдоподобные научные рефераты. Она продолжает, что границы этического использования больших языковых моделей для помощи в написании научных работ еще предстоит определить.
Вахтер полагает, что если ученые не смогут определить подлинность исследований, то последствия могут оказаться ужасными. Это создает проблемы для исследователей, которых могут сбить с толку ошибочные пути расследования [кто автор подобных работ] заведомо сгенерированных аннотаций. Также можно разглядеть определенные «последствия для общества в целом, потому что научные исследования играют огромную роль в современном обществе». К примеру, добавляет Вахтер, это может означать, что политические решения, основанные на исследованиях, окажутся неверны.
Но Арвинд Нараянан, специалист в области программирования и информатики из Принстонского университета в Нью-Джерси, считает маловероятным, что какой-либо серьезный ученый станет использовать ChatGPT для создания рефератов. Он добавляет, что возможность обнаружения сгенерированных рефератов «не играет особой роли» для процесса написания научной работы. Вопрос в том, может ли бот создавать точную и убедительную аннотацию. По мнению Арвинда Нараянана ИИ не способен на это, поэтому преимущества использования ChatGPT ничтожны, а недостатки значительны.
Ирэн Солейман, исследователь социального влияния ИИ из Hugging Face (компания по искусственному интеллекту со штаб-квартирами в Нью-Йорке и Париже), опасается в разумности использования крупных языковых моделей в процессе научной деятельности. Она отмечает, что основой обучения этих моделей является прошлая информация, а социальный и научный прогресс часто являются продуктом свободного мышления или же взгляда в будущее, который не всегда строго опирается на прошлое.
Авторы предлагают рецензентам научных сообщений, таких как исследовательские работы и материалы конференций, принять меры для искоренения использования текстов, сгенерированных ИИ. Если научные и образовательные учреждения разрешат использование подобной технологии, должны быть установлены четкие правила относительно раскрытия информации. Ранее в январе 2023 г., был объявлен запрет на статьи, созданные ChatGPT и другими лингвистическими приложениями с ИИ. Такое решение приняла Сороковая международная конференция по машинному обучению, следующий съезд которой пройдет в Гонолулу, Гавайи, в июле 2023.
Солейман добавляет, что в областях, где ложная информация может нести угрозу безопасности людей, как в медицине, редакциям изданий придется применять более строгий подход к проверке достоверности информации.
Нараянан заявляет, что решения этих проблем должны быть сосредоточены не на самом чат-боте, а, скорее, на тех неправильных инициативах, которые ведут к подобному поведению, как например, руководство университетов, проводящее найм и допускающее продвижение по карьерной лестнице сотрудников, основываясь лишь на количестве работ, без учета их качества или потенциального влияния.