Выход за рамки мимикрии в искусственном интеллекте

HUMAN-AI ART: The center of this image was generated by DALL-E 2 with the prompt, “A man looking at a robot in a full length mirror, digital art by Wes Anderson.” The generated image was then split into two parts and expanded on each side using DALL-E 2’s “inpainting” feature, and the resulting images were reassembled into a single composite image using Photoshop. Illustration by Raphaël Millière with DALL-E 2.

Что делает предварительно обученные модели искусственного интеллекта такими впечатляющими — и потенциально вредными.

Ты сам напросился. Или представьте, что вы болтаете с ним на разные темы и чувствуете, что это настоящее взаимодействие. То, что когда-то было научной фантастикой, становится реальностью. В июне инженер Google Блейк Лемуан заявил газете Washington Post, что убежден в разумности чат-бота LaMDA с искусственным интеллектом от Google. ”Я узнаю человека, когда разговариваю с ним», “ сказал Лемуан. В этом и заключается загвоздка: поскольку алгоритмы становятся все более эффективными в создании “результатов”, которые мы когда-то считали отчетливо человеческими, легко быть ослепленным. Безусловно, заставить компьютеры генерировать убедительный текст и изображения — это замечательный подвиг; но это само по себе не является свидетельством разумности или человеческого интеллекта. Современные системы искусственного интеллекта являются зеркалом нашего онлайн-мышления. Подобно Нарциссу, мы можем заблудиться, глядя на свое отражение, даже если оно не всегда лестно. Мы должны спросить себя: есть ли в этих алгоритмах нечто большее, чем бездумное копирование? Ответ на этот вопрос не однозначен.

Исследования в области искусственного интеллекта приближаются к способу решения многих проблем, которые когда-то требовали частичных или конкретных решений: обучение больших моделей машинного обучения на огромных объемах данных для выполнения широкого круга задач, для которых они явно не были предназначены. Группа исследователей из Стэнфорда придумала наводящую на размышления фразу “базовые модели”, чтобы отразить важность этой тенденции, хотя мы можем предпочесть более нейтральный ярлык “большие предварительно обученные модели”, который в общих чертах относится к семейству моделей, которые имеют несколько общих важных характеристик. Они обучаются с помощью самоконтроля, то есть не полагаясь на то, что люди вручную помечают данные; и они могут адаптироваться к новым задачам без дополнительного обучения. Более того, простое увеличение их размера и данных обучения оказалось удивительно эффективным для улучшения их возможностей — никаких существенных изменений в базовой архитектуре не требуется. В результате большая часть недавнего прогресса в области искусственного интеллекта была обусловлена исключительно инженерным мастерством, а не новаторскими теоретическими инновациями.

Некоторые большие предварительно обученные модели обучаются исключительно на тексте. Всего за несколько лет эти языковые модели продемонстрировали сверхъестественную способность писать связные абзацы, объяснять шутки и решать математические задачи. К настоящему времени все крупные технологические компании, находящиеся на переднем крае исследований в области искусственного интеллекта, вложили большие деньги в обучение своих собственных больших языковых моделей. Открытый ИИ проложил путь в 2020 году с помощью GPT-3, за которым недавно последовал шквал других гигантских моделей, таких как PaLM от Google, OPT от Meta (ранее Facebook) и Chinchilla от DeepMind.

Мы должны спросить себя: есть ли в этих алгоритмах нечто большее, чем бездумное копирование?

Другие большие модели обучаются на изображениях или видео, а также на тексте. За последние несколько месяцев некоторые из этих новых “мультимодальных” моделей покорили Интернет своими непредвиденными возможностями: DALL-E 2 от Open AI и Imagen и Parti от Google могут создавать последовательные и стильные иллюстрации практически из любой подписи; а Flamingo от DeepMind может описывать изображения и отвечать на вопросы вопросы об их содержании. Крупные модели также выходят за рамки языка и видения, чтобы проникнуть на территорию воплощенного агентства. DeepMind разработал модель под названием Gato и обучил ее таким вещам, как нажатие кнопок, проприоцептивные сигналы и вращательные моменты в суставах — в дополнение к тексту и изображениям. В результате он может играть в видеоигры и даже управлять реальным роботом.

Легко быть впечатленным тем, на что способны эти модели. PaLM, DALL-E 2 и Gato вызвали новую волну спекуляций о ближайшем будущем искусственного интеллекта (и ажиотаж по сбору средств в отрасли). Некоторые исследователи даже поддержали провокационный лозунг: “Масштабирование — это все, что вам нужно”. Идея состоит в том, что дальнейшее масштабирование этих моделей или аналогичных моделей может привести нас к AGI, или искусственному общему интеллекту.

Однако многие исследователи предостерегают от потакания нашей естественной склонности к антропоморфизму, когда речь идет о больших предварительно обученных моделях. В особенно влиятельной статье Эмили Бендер, Тимнит Гебру и их коллеги сравнили языковые модели со “стохастическими попугаями”, утверждая, что они случайно сшивают выборки из своих обучающих данных. Попугаи повторяют фразы, не понимая, что они означают; исследователи утверждают, что это относится и к языковым моделям, и их критика может быть распространена и на их мультимодальные аналоги, такие как DALL-E 2.

Продолжающиеся споры о том, понимают ли большие предварительно обученные модели текст и изображения, осложняются тем фактом, что сами ученые и философы расходятся во мнениях о природе лингвистического и визуального понимания у существ, подобных нам. Многие исследователи подчеркивали важность “обоснования” для понимания, но этот термин может охватывать целый ряд различных идей. Они могут включать наличие соответствующих связей между лингвистическими и перцептивными репрезентациями, закрепление их в реальном мире посредством причинно-следственного взаимодействия и моделирование коммуникативных намерений. У некоторых также есть интуиция, что истинное понимание требует осознанности, в то время как другие предпочитают думать об этом как о двух разных проблемах. Неудивительно, что существует надвигающийся риск того, что исследователи будут пропускать друг друга мимо ушей.

Тем не менее, трудно утверждать, что большие предварительно обученные модели в настоящее время понимают язык или мир так, как это делают люди. Дети не усваивают значение слов в вакууме, просто читая книги. Они взаимодействуют с миром и получают богатую, мультимодальную обратную связь от своих действий. Они также взаимодействуют со взрослыми, которые обеспечивают нетривиальный объем контролируемого обучения в их развитии. В отличие от моделей искусственного интеллекта, они никогда не прекращают учиться. В процессе они формируют постоянные цели, желания, убеждения и личные воспоминания; все это по-прежнему в значительной степени отсутствует в ИИ.

Важно признать различия между большими предварительно обученными моделями и человеческим познанием. Слишком часто сторонники ИИ изображают эти модели как обладающие почти магическими способностями или находящиеся на грани достижения общего интеллекта человеческого уровня с дальнейшим масштабированием. Это вводит людей в заблуждение, заставляя предполагать, что большие предварительно обученные модели могут достичь того, чего они не могут, и быть чрезмерно уверенными в сложности своих результатов. Альтернативная картина, которую предлагают скептики с помощью метафоры “стохастических попугаев”, имеет то преимущество, что она позволяет преодолеть шумиху и умерить завышенные ожидания. Это также подчеркивает серьезные этические опасения по поводу того, что произойдет, когда большие предварительно обученные модели будут масштабно внедрены в потребительские товары.

Вот в чем особенность мимикрии: она не обязательно должна включать интеллект или даже агентуру. 

Но сведение больших предварительно обученных моделей к простым стохастическим попугаям может зайти слишком далеко в другом направлении и даже побудить людей делать другие вводящие в заблуждение предположения. Во-первых, существует достаточно доказательств того, что успехи этих моделей обусловлены не только запоминанием последовательностей из их обучающих данных. Языковые модели, безусловно, повторно используют существующие слова и фразы — так же, как и люди. Но они также создают новые предложения, никогда ранее не написанные, и могут даже выполнять задачи, требующие использования слов, которые люди придумали и определили в подсказке. Это также относится к мультимодальным моделям. Например, DALL-E 2 может создавать точные и последовательные иллюстрации таких подсказок, как “Фотография сбитого с толку медведя гризли на уроке математики”, “Пушистый ленивец в вязаной шапочке пытается разобраться с ноутбуком” или “Старая фотография дирижабля 1920-х годов в форме свинья, парящая над пшеничным полем.” Хотя обучающие данные модели не являются общедоступными, маловероятно, что они содержат изображения, близкие к тому, что описывают эти подсказки (и многие столь же несоответствующие).

Я предполагаю, что многое из того, что делают большие предварительно обученные модели, является формой искусственной мимикрии. Вместо стохастических попугаев мы могли бы назвать их стохастическими хамелеонами. Попугаи повторяют заученные фразы; хамелеоны легко вписываются в новую среду. По иронии судьбы, разница может показаться вопросом семантики. Тем не менее, это важно, когда речь идет о выявлении возможностей, ограничений и потенциальных рисков больших предварительно обученных моделей. Их способность адаптироваться к содержанию, тону и стилю практически любой подсказки — вот что делает их такими впечатляющими — и потенциально вредными. Они могут быть склонны имитировать худшие стороны человечества, включая расистские, сексистские и ненавистнические высказывания. У них нет врожденного уважения к истине или лжи, что делает их отличными болтунами. Как показывает история с Ламдой, мы не всегда хорошо понимаем, что внешность может быть обманчивой.

Искусственная мимикрия проявляется во многих формах. Языковые модели реагируют на тонкие стилистические особенности приглашения. Дайте такой модели первые несколько предложений из романа Джейн Остин, и она завершит его абзацем, в котором отчетливо чувствуется остинизм, хотя его нигде нет в творчестве Остин. Дайте ему несколько предложений из поста 4chan, и он выплюнет язвительный троллинг. Задайте ему наводящие вопросы о разумном ИИ, и он ответит так же. С помощью некоторой “быстрой инженерии” можно даже заставить языковые модели цепляться за более сложные шаблоны и решать задачи на основе нескольких примеров. Модели преобразования текста в изображение реагируют на тонкие лингвистические сигналы об эстетических свойствах выходных данных. Например, вы можете предложить DALL-E 2 создать изображение в стиле известного художника; или вы можете указать среду, цветовую палитру, текстуру, ракурс и общий художественный стиль желаемого изображения. Будь то язык или изображения, большие предварительно обученные модели превосходно поддаются стилизации и имитации.

Вместо стохастических попугаев мы могли бы назвать предварительно обученные модели стохастическими хамелеонами.

Вот в чем особенность мимикрии: она не обязательно должна включать интеллект или даже агентуру. Специализированные пигментсодержащие клетки, с помощью которых хамелеоны и головоногие моллюски сливаются с окружающей средой, могут показаться умными, но они не требуют от них намеренного подражания особенностям окружающей среды путем тщательного анализа. Сложные глаза каракатицы, которые улавливают тонкие цветовые оттенки в окружающей среде и воспроизводят их на коже каракатицы, — это своего рода биологическая мимикрия, которую можно рассматривать как решение проблемы подбора цвета, которая включает выборку нужной области цветового пространства на основе контекста.

Искусственная мимикрия в больших предварительно обученных моделях также решает проблему сопоставления, но эта проблема включает выборку области скрытого пространства модели на основе контекста. Скрытое пространство относится к многомерному абстрактному пространству, в котором эти модели кодируют маркеры (такие как слова, пиксели или любые сериализованные данные) в виде векторов — серии действительных чисел, которые определяют местоположение в этом пространстве. Когда языковые модели заканчивают неполное предложение или когда мультимодальные модели генерируют изображение из описания, они выбирают представления из области своего скрытого пространства, которая соответствует контексту, предоставляемому подсказкой. Это может и не требовать тех сложных когнитивных способностей, которые мы склонны им приписывать.

Или так оно и есть? Достаточно развитая мимикрия практически неотличима от разумного поведения — и в этом заключается трудность. Когда масштабируемые модели открывают новые возможности, связно комбинируя новые концепции, объясняя новые шутки к нашему удовлетворению или пошагово решая математическую задачу, чтобы найти правильное решение, трудно сопротивляться интуиции, что происходит нечто большее, чем бессмысленное подражание.

Могут ли большие предварительно обученные модели действительно предложить нечто большее, чем симулякр разумного поведения? Есть два способа взглянуть на этот вопрос. Некоторые исследователи считают, что тот тип интеллекта, который обнаруживается в биологических агентах, скроен из принципиально иной ткани, чем тот тип статистического сопоставления с образцом, в котором преуспевают большие модели. Для этих скептиков расширение существующих подходов — всего лишь глупая затея в поисках искусственного интеллекта, а ярлык “базовые модели” — неудачное неправильное название.

Другие утверждают, что большие предварительно обученные модели уже делают шаги к приобретению протоинтеллектуальных способностей. Например, способ, которым большие языковые модели могут решить математическую задачу, включает в себя, казалось бы, нетривиальную способность манипулировать параметрами входных данных с помощью абстрактных шаблонов. Аналогичным образом, многие результаты мультимодальных моделей демонстрируют, казалось бы, нетривиальную способность переводить концепции из лингвистической области в визуальную и гибко комбинировать их способами, которые ограничены синтаксической структурой и базовыми знаниями. Можно было бы рассматривать эти способности как очень предварительные составляющие интеллекта, намеки на более умные способности, которые еще предстоит раскрыть. Безусловно, других компонентов по-прежнему не хватает, и есть веские причины сомневаться в том, что простого обучения больших моделей на большем количестве данных без дальнейших инноваций когда-либо будет достаточно для воспроизведения интеллекта, подобного человеческому.

Чтобы добиться прогресса в решении этих проблем, это помогает выйти за рамки функций обучения и контрольных показателей. Уточнение рабочих определений таких терминов, как “понимание”, “рассуждение” и “интеллект”, в свете философских и когнитивных исследований важно, чтобы избежать споров, которые ни к чему нас не приведут. Нам также необходимо лучше понять механизмы, лежащие в основе производительности больших предварительно обученных моделей, чтобы показать, что может лежать за пределами искусственной мимикрии. В настоящее время предпринимаются усилия по тщательному обратному проектированию вычислений, выполняемых этими моделями, что могло бы поддержать более конкретные и значимые сравнения с человеческим познанием. Однако это кропотливый процесс, который неизбежно отстает от разработки новых и более крупных моделей.

Независимо от того, как мы ответим на эти вопросы, нам нужно быть осторожными при развертывании больших предварительно обученных моделей в реальном мире; не потому, что они угрожают стать разумными или сверхразумными в одночасье, а потому, что они подражают нам, бородавкам и всему остальному.

Рафаэль Мильер — президентский стипендиат в области общества и неврологии в Центре науки и общества Колумбийского университета, где он проводит исследования по философии когнитивной науки. Следите за ним в Твиттере @raphaelmilliere. https://nautil.us/moving-beyond