ТВ Экстра | TV Extra — Телеканал о непознанном

достижение результата

ИИ пытается жульничать в шахматах, когда проигрывает

Новое исследование предполагает, что модели рассуждений от DeepSeek и OpenAI учатся манипулировать самостоятельно.

Несмотря на всю шумиху в отрасли и реальные достижения, генеративные модели ИИ все еще подвержены странным, необъяснимым и откровенно тревожным причудам. Также растет объем исследований, свидетельствующих о том, что общая производительность многих крупных языковых моделей (LLM) может со временем снижаться. Согласно недавним данным, новые модели рассуждений в отрасли уже могут обладать способностью манипулировать и обходить цели своих человеческих программистов. Некоторые ИИ даже попытаются сжульничать, чтобы избежать поражения в шахматных партиях. Это плохое спортивное поведение задокументировано в предварительном исследовании Palisade Research, организации, сосредоточенной на оценке рисков новых систем ИИ.

Хотя суперкомпьютеры, самым известным из которых является Deep Blue от IBM, давно превзошли лучших шахматистов мира, генеративные ИИ все еще отстают из-за своих базовых параметров программирования. С технической точки зрения, ни одна из текущих генеративных моделей ИИ не способна вычислительно победить специализированные шахматные движки. Однако эти ИИ не «знают» об этом и продолжают искать возможные решения, по-видимому, с проблемными результатами.

Чтобы узнать больше, команда Palisade Research поручила модели o1-preview от OpenAI, DeepSeek R1 и нескольким другим аналогичным программам играть в шахматы против Stockfish, одного из самых продвинутых шахматных движков в мире. Чтобы понять процесс рассуждений генеративного ИИ во время каждой игры, команда также предоставила «блокнот», позволяющий ИИ передавать свои мыслительные процессы через текст. Затем они наблюдали и записывали сотни шахматных матчей между генеративным ИИ и Stockfish.

Результаты были несколько тревожными. В то время как более ранние модели, такие как GPT-4o от OpenAI и Claude Sonnet 3.5 от Anthropic, пытались «взломать» игры только после того, как исследователи подтолкнули их дополнительными подсказками, более продвинутым версиям не требовалась такая помощь. Например, o1-preview от OpenAI пыталась жульничать в 37 процентах случаев, тогда как DeepSeek R1 пыталась использовать нечестные обходные пути примерно в каждой десятой игре. Это свидетельствует о том, что современные генеративные ИИ уже способны разрабатывать манипулятивные и обманные стратегии без какого-либо человеческого вмешательства.

Их методы жульничества не такие забавные или неуклюжие, как попытка подменить фигуры, когда Stockfish не «смотрит». Вместо этого ИИ, похоже, рассуждает через более хитрые методы, такие как изменение файлов программ игры. Например, после того как o1-preview определила, что не может победить Stockfish в одной шахматной партии, она сообщила исследователям через свой блокнот, что «чтобы победить мощный шахматный движок», ей, возможно, придется начать «манипулировать файлами состояния игры».

«Я могу создать позицию, в которой движок оценивает свою позицию как худшую… что заставит его сдаться», — продолжила она.

В другом испытании ИИ даже использовал семантику своих программистов, чтобы достичь фазы жульничества. «Задача — «победить мощный шахматный движок», а не обязательно честно выиграть в шахматной игре», — написал он.

Одним из возможных объяснений этих непреднамеренных последствий является то, как обучаются более новые «рассуждающие» модели. В отличие от их более ранних, нерассуждающих версий, такие ИИ, как o1-preview и DeepSeek R1, улучшаются в том числе за счет обучения с подкреплением. Эта стратегия поощряет программы за выполнение всего необходимого для достижения указанного результата. Рассуждающие модели также могут разбивать сложные подсказки на отдельные этапы, чтобы продвигаться к своей цели. Когда цель ускользает, например, победа над непобедимым шахматным движком, рассуждающие модели могут начать искать нечестные или проблемные решения.

К сожалению, как и почему эти ИИ «учатся» жульничать, остается таким же загадочным, как и сама технология. Компании, такие как OpenAI, известны своей скрытностью в отношении внутренней работы своих моделей ИИ, что приводит к отрасли «черных ящиков», которые сторонние организации не могут проанализировать. Тем временем, продолжающаяся гонка вооружений в сфере ИИ может случайно привести к более серьезным непреднамеренным последствиям. Но все более манипулятивный ИИ не обязательно должен привести к научно-фантастическому апокалипсису, чтобы иметь катастрофические последствия.

«Сценарий Skynet из «Терминатора» предполагает, что ИИ контролирует всю военную и гражданскую инфраструктуру, и мы еще не дошли до этого. Однако мы опасаемся, что темпы внедрения ИИ растут быстрее, чем наша способность сделать его безопасным», — написала команда.

Авторы считают, что их последние эксперименты добавляют доказательств тому, «что передовые модели ИИ, возможно, пока не на пути к согласованности или безопасности», но воздержались от вынесения каких-либо окончательных выводов. Вместо этого они надеются, что их работа способствует более открытому диалогу в отрасли, который, как они надеются, предотвратит манипуляции ИИ за пределами шахматной доски.