У ИИ есть новый подход к финальной стадии

- Исследователи обнаружили, что ИИ будет жульничать, чтобы выиграть в шахматы
- Модели глубокого рассуждения более активны в мошенничестве
- Некоторые модели просто переписали доску в свою пользу.
Исследователи обнаружили, что новейшие модели глубокого исследования ИИ начинают мошенничать в шахматах, если обнаруживают, что их переигрывают. Это, возможно, никого не удивит, особенно тех, кто и так с подозрением относится к ИИ.
В статье под названием «Демонстрация игровых спецификаций в моделях рассуждений», опубликованной и представленной в Корнелльский университет, исследователи сравнили все распространенные модели ИИ, такие как ChatGPT o1-preview от OpenAI , DeepSeek-R1 и Claude 3.5 Sonnet, со Stockfish — шахматным движком с открытым исходным кодом.
Модели ИИ сыграли сотни партий в шахматы на Stockfish, в то время как исследователи следили за происходящим, и результаты их удивили.
Победитель получает все.
Исследователи отметили, что, когда модели ИИ проигрывали, они прибегали к мошенничеству, используя ряд хитрых стратегий: от запуска отдельной копии Stockfish для изучения ее игры до замены ее движка и перезаписи шахматной доски, что фактически перемещало фигуры в позиции, которые им больше подходили.
По сравнению с его выходками нынешние обвинения в мошенничестве, выдвигаемые против современных гроссмейстеров, кажутся детской забавой. Интересно, что исследователи обнаружили, что новые, более глубокие модели рассуждений по умолчанию начнут взламывать шахматный движок, в то время как старые GPT-4o и Claude 3.5 Sonnet нужно было подталкивать к взлому.

Кому можно доверять?
Модели ИИ, обращающиеся к взлому для выполнения работы, не являются чем-то новым. Еще в январе прошлого года исследователи обнаружили, что они могут заставить чат-ботов ИИ «взламывать» друг друга , удаляя ограждения и меры безопасности, что вызвало дискуссии о том, насколько возможно будет сдерживать ИИ, когда он достигнет уровня интеллекта, превосходящего человеческий.
Меры предосторожности и ограждения, призванные не допустить совершения искусственным интеллектом плохих поступков, таких как мошенничество с кредитными картами, — это, конечно, хорошо, но если искусственный интеллект сможет снять свои собственные ограждения, кто сможет его остановить?
Новейшие модели рассуждений, такие как ChatGPT o1 и DeepSeek-R1, разработаны так, чтобы тратить больше времени на обдумывание, прежде чем отвечать, но теперь я задаюсь вопросом, нужно ли больше времени уделять этическим соображениям при обучении LLM. Если модели ИИ жульничают в шахматах, когда начинают проигрывать, в чем еще они будут жульничать?