LeCun, гуру искусственного интеллекта Meta: Большинство современных подходов к искусственному интеллекту никогда не приведут к истинному интеллекту.

По словам LeCun, фундаментальные проблемы ускользают от многих методов глубокого обучения, включая тайну того, как измерять информацию.

yann-lecun-sept-2022-1
«I think AI systems need to be able to reason,» says Yann LeCun, Meta’s chief AI scientist. Today’s popular AI approaches such as Transformers, many of which build upon his own pioneering work in the field, will not be sufficient. «You have to take a step back and say, Okay, we built this ladder, but we want to go to the moon, and there’s no way this ladder is going to get us there,» says LeCun./»Я думаю, что системы искусственного интеллекта должны уметь рассуждать», — говорит Янн Лекун, главный специалист Meta по искусственному интеллекту. Популярных сегодня подходов к искусственному интеллекту, таких как Трансформеры, многие из которых основаны на его собственной новаторской работе в этой области, будет недостаточно. «Вы должны сделать шаг назад и сказать: хорошо, мы построили эту лестницу, но мы хотим полететь на Луну, и эта лестница никак не приведет нас туда», — говорит ЛеКун.

(Статья дополнена опровержением Гэри Маркуса в контексте.)

Янн Лекун, главный специалист по искусственному интеллекту в Meta Properties, владелец Facebook, Instagram и WhatsApp, вероятно, поставит в тупик многих людей в своей области.

Опубликовав в июне аналитическую статью на сервере Open Review, ЛеКун предложил широкий обзор подхода, который, по его мнению, многообещающий для достижения интеллекта на уровне человека в машинах.

Подразумевается, если не сформулировано в документе, утверждение о том, что большинство сегодняшних крупных проектов в области искусственного интеллекта никогда не смогут достичь этой цели на человеческом уровне.

В дискуссии в этом месяце с ZDNet через Zoom ЛеКун ясно дал понять, что он с большим скептицизмом относится ко многим наиболее успешным направлениям исследований в области глубокого обучения на данный момент.

«Я думаю, что они необходимы, но не достаточны», — сказал лауреат премии Тьюринга ZDNet о занятиях своих коллег.

К ним относятся большие языковые модели, такие как GPT-3 на базе Transformer и им подобные. Как характеризует это ЛеКун, приверженцы Transformer верят: «Мы маркируем все и обучаем гигантские модели делать дискретные прогнозы, и каким-то образом из этого выйдет искусственный интеллект».

«Они не ошибаются, — говорит он, — в том смысле, что это может быть компонентом будущей интеллектуальной системы, но я думаю, что в ней отсутствуют важные элементы».

Также: Светило искусственного интеллекта Meta ЛеКун исследует энергетические границы глубокого обучения

Это поразительная критика того, что, по-видимому, работает, исходящая от ученого, который усовершенствовал использование сверточных нейронных сетей, практической техники, которая была невероятно продуктивной в программах глубокого обучения.

ЛеКун видит недостатки и ограничения во множестве других весьма успешных областей дисциплины.

Он утверждает, что обучения с подкреплением также никогда не будет достаточно. Исследователи, такие как Дэвид Сильвер из DeepMind, который разработал программу AlphaZero, которая освоила шахматы, сеги и Го, сосредоточены на программах, которые «очень основаны на действиях», отмечает ЛеКун, но «большую часть обучения, которое мы делаем, мы делаем это не путем реальных действий, мы делаем это с помощью наблюдаю.»

62-летний Лекун, с точки зрения десятилетий достижений, тем не менее, выражает настоятельную необходимость противостоять тому, что, по его мнению, является тупиковыми путями, к которым многие, возможно, стремятся, и попытаться направить свою сферу деятельности в том направлении, в котором, по его мнению, все должно развиваться.

«Мы видим много заявлений о том, что мы должны сделать, чтобы продвинуться к ИИ человеческого уровня», — говорит он. «И есть идеи, которые, как мне кажется, направлены не в ту сторону».

«Мы еще не достигли той точки, когда наши интеллектуальные машины обладают таким же здравым смыслом, как кошка», — замечает Лекун. «Итак, почему бы нам не начать с этого?»

Он отказался от своей прежней веры в использование генеративных сетей в таких вещах, как предсказание следующего кадра в видео. «Это был полный провал», — говорит он.

Лекун осуждает тех, кого он называет «религиозными вероятностниками», которые «думают, что теория вероятностей — это единственная структура, которую вы можете использовать для объяснения машинного обучения».

Чисто статистический подход трудноразрешим, говорит он. «Слишком много требовать, чтобы модель мира была полностью вероятностной; мы не знаем, как это сделать».

Не только ученые, но и промышленный ИИ нуждается в глубоком переосмыслении, утверждает ЛеКун. Сторонники самоуправляемых автомобилей, такие стартапы, как Wayve, были «немного слишком оптимистичны», говорит он, думая, что они могут «передавать данные в «большие нейронные сети», и вы сможете научиться практически всему».

«Вы знаете, я думаю, что вполне возможно, что у нас будут автономные автомобили пятого уровня без здравого смысла», — говорит он, имея в виду «ADAS», расширенную систему помощи водителю, обозначающую самостоятельное вождение, «но вам придется чертовски постараться».

Он считает, что такая сверхпроектированная технология самостоятельного вождения будет такой же скрипучей и хрупкой, как все программы компьютерного зрения, которые устарели из-за глубокого обучения.

«В конечном счете, будет найдено более удовлетворительное и, возможно, лучшее решение, включающее системы, которые лучше понимают, как устроен мир».

Попутно ЛеКун высказывает несколько уничтожающих взглядов своих самых больших критиков, таких как профессор Нью—Йоркского университета Гэри Маркус — «он никогда ничего не делал для искусственного интеллекта» — и Юрген Шмидхубер, содиректор Института исследований искусственного интеллекта Далле Молле — «очень легко установить флаг».

Помимо критики, более важный момент, сделанный Лекуном, заключается в том, что определенные фундаментальные проблемы стоят перед всем искусственным интеллектом, в частности, как измерять информацию.

«Вы должны сделать шаг назад и сказать: хорошо, мы построили эту лестницу, но мы хотим полететь на Луну, и эта лестница никак не приведет нас туда», — говорит ЛеКун о своем желании побудить к переосмыслению основных концепций. «По сути, то, что я здесь пишу, заключается в том, что нам нужно строить ракеты, я не могу подробно рассказать вам о том, как мы строим ракеты, но вот основные принципы».

Статью и мысли Лекуна в интервью можно лучше понять, прочитав интервью Лекуна ранее в этом году ZDNet, в котором он выступает за основанное на энергии самоконтролируемое обучение как путь к глубокому обучению. Эти размышления дают представление об основном подходе к тому, что он надеется построить в качестве альтернативы вещам, которые, как он утверждает, не дойдут до финиша.

Ниже приводится слегка отредактированная стенограмма интервью.

ZDNet: Тема нашего чата — эта статья «Путь к автономному машинному интеллекту», версия 0.9.2 которой является существующей версией, да?

Ян Лекун: Да, я считаю это своего рода рабочим документом. Итак, я разместил его на Открытом просмотре, ожидая, что люди оставят комментарии и предложения, возможно, дополнительные ссылки, а затем я подготовлю исправленную версию.

ZDNet: Я вижу, что Юрген Шмидхубер уже добавил несколько комментариев к Открытому обзору.

ИЛ: Ну, да, он всегда так делает. Я цитирую одну из его статей там, в моей статье. Я думаю, что аргументы, которые он приводил в социальных сетях о том, что он в основном изобрел все это в 1991 году, как он делал в других случаях, просто не соответствуют действительности. Я имею в виду, что очень легко сделать установку флажков и, в некотором роде, написать идею без каких-либо экспериментов, без какой-либо теории, просто предположив, что вы могли бы сделать это таким образом. Но, знаете, есть большая разница между тем, чтобы просто иметь идею, а затем заставить ее работать над игрушечной проблемой, а затем заставить ее работать над реальной проблемой, а затем создать теорию, которая показывает, почему это работает, и затем развернуть ее. Существует целая цепочка, и его представление о научной заслуге заключается в том, что это самый первый человек, которому просто, вроде как, пришла в голову такая идея, который должен получить всю заслугу. И это просто смешно.

ZDNet: Не верьте всему, что вы слышите в социальных сетях.

ИЛ: Я имею в виду, что в основной статье, которую, по его словам, я должен процитировать, нет ни одной из основных идей, о которых я рассказываю в статье. Он делал это также с Гансом и другими вещами, которые не оказались правдой. Установить флаг легко, гораздо сложнее внести свой вклад. И, кстати, в этой конкретной статье я прямо сказал, что это не научная статья в обычном смысле этого слова. Это скорее документ с изложением позиции относительно того, куда все это должно пойти. И там есть пара идей, которые могут быть новыми, но большинство из них таковыми не являются. По сути, я не претендую на какой-либо приоритет в отношении большей части того, что я написал в этой статье.

ЛеКун утверждает, что обучения с подкреплением также никогда не будет достаточно. Исследователи, такие как Дэвид Сильвер из DeepMind, который разработал программу AlphaZero, которая освоила шахматы, сеги и Го, «очень ориентированы на действия», отмечает ЛеКун, но «большую часть обучения, которое мы проводим, мы делаем не путем реальных действий, мы делаем это путем наблюдения».

ZDNet: И это, пожалуй, хорошее место для начала, потому что мне любопытно, почему вы пошли по этому пути сейчас? Что заставило тебя задуматься об этом? Почему вы хотели это написать?

ИЛ: Ну, итак, я очень долго думал об этом, о пути к интеллекту человеческого или животного уровня, или обучению и способностям. И в своих выступлениях я довольно громко говорил обо всем этом, что как контролируемого обучения, так и обучения с подкреплением недостаточно, чтобы имитировать тот вид обучения, который мы наблюдаем у животных и людей. Я занимаюсь этим уже где-то семь или восемь лет. Значит, это не так давно. Много лет назад у меня был лейтмотив в NeurIPS, где я, по сути, высказал эту мысль, и различные выступления, есть записи. Итак, зачем писать статью сейчас? Я подошел к сути — [исследователь мозга Google] Джефф Хинтон сделал нечто подобное — я имею в виду, конечно, его больше, чем меня, мы видим, что время уходит. Мы уже не молоды.

ZDNet: Шестьдесят — это новые пятьдесят.

ИЛ: Это правда, но суть в том, что мы видим много заявлений о том, что мы должны сделать, чтобы продвинуться к ИИ человеческого уровня. И есть идеи, которые, как мне кажется, направлены не в ту сторону. Итак, одна идея заключается в том, что мы должны просто добавить символическое мышление поверх нейронных сетей. И я не знаю, как это сделать. Итак, возможно, то, что я объяснил в статье, может быть одним из подходов, который будет делать то же самое без явных манипуляций с символами. Это своего рода традиционный Гэри Маркус в мире. Гэри Маркус, кстати, не специалист по искусственному интеллекту, он психолог. Он никогда ничего не вносил в искусственный интеллект. Он проделал действительно хорошую работу в области экспериментальной психологии, но он никогда не писал рецензируемую работу по искусственному интеллекту. Итак, есть такие люди.

(Обновление: Гэри Маркус опровергает утверждение об отсутствии рецензируемых статей. Он отправил по электронной почте в ZDNet следующие рецензируемые статьи: Рассуждения здравого смысла о контейнерах, использующих радикально неполную информацию в искусственном интеллекте; Рассуждения на основе радикально неполной информации: Случай контейнеров в достижениях Cog Sys; Объем и пределы моделирования в автоматизированных рассуждениях в искусственном интеллекте; Рассуждения здравого смысла и знания здравого смысла в Коммуникации ACM; Переосмысление элиминативного коннекционизма, когнитивной психологии)

Есть [исследователь принципов DeepMind] Дэвид Сильверс из мира, который говорит, вы знаете, вознаграждения достаточно, в принципе, все дело в обучении с подкреплением, нам просто нужно сделать это немного более эффективным, хорошо? И я думаю, что они не ошибаются, но я думаю, что необходимые шаги для повышения эффективности обучения с подкреплением, по сути, превратили бы обучение с подкреплением в своего рода вишенку на торте. И главная недостающая часть — это изучение того, как устроен мир, в основном путем наблюдения без действия. Обучение с подкреплением очень основано на действиях, вы узнаете что-то о мире, предпринимая действия и видя результаты.

ZDNet: И это ориентировано на вознаграждение.

ИЛ: Он ориентирован на вознаграждение, а также на действие. Итак, вы должны действовать в мире, чтобы иметь возможность узнать что-то об этом мире. И главное утверждение, которое я выдвигаю в статье о самоконтролируемом обучении, заключается в том, что большую часть обучения, которое мы проводим, мы делаем не путем реальных действий, а путем наблюдения. И это очень неортодоксально, как для людей, обучающихся с подкреплением, в частности, но также и для многих психологов и когнитивистов, которые думают, что, знаете, действие — я не говорю, что действие не важно, оно необходимо. Но я думаю, что большая часть того, что мы узнаем, в основном касается структуры мира и включает в себя, конечно, взаимодействие, действие, игру и тому подобное, но многое из этого основано на наблюдениях.

ZDNet: Вам также удастся отметить людей-трансформеров, людей, изучающих язык, в то же время. Как вы можете создать это без использования языка в первую очередь? Возможно, вам удастся вывести из себя многих людей.

ИЛ: Да, я к этому привык. Итак, да, есть люди, ориентированные на язык, которые говорят, знаете, интеллект — это язык, субстрат интеллекта — это язык, бла-бла-бла. Но это, в некотором роде, отвергает животный интеллект. Вы знаете, мы еще не достигли той точки, когда наши интеллектуальные машины обладают таким же здравым смыслом, как кошка. Итак, почему бы нам не начать с этого? Что это такое, что позволяет кошке воспринимать окружающий мир, делать довольно умные вещи, планировать и тому подобное, а собакам — еще лучше?

Тогда есть все люди, которые говорят, О, интеллект — это социальная вещь, верно? Мы разумны, потому что разговариваем друг с другом, обмениваемся информацией и бла-бла-бла. Существуют всевозможные асоциальные виды, которые никогда не встречаются со своими очень умными родителями, например, осьминоги или орангутанги.Я имею в виду, что они [орангутанги], конечно, воспитаны своей матерью, но они не социальные животные.

Но другая категория людей, которую я мог бы отметить, — это люди, которые говорят, что масштабирования достаточно. Итак, по сути, мы просто используем гигантские трансформеры, мы обучаем их на мультимодальных данных, которые включают, знаете ли, видео, текст, бла-бла-бла. Мы, в некотором роде, окаменеваем все и обозначаем все, а затем обучаем гигантские модели делать дискретные прогнозы, в основном, и каким-то образом из этого выйдет искусственный интеллект. Они не ошибаются в том смысле, что это может быть компонентом будущей интеллектуальной системы. Но я думаю, что в нем не хватает важных деталей.

Есть еще одна категория людей, которых я собираюсь отметить в этой статье. И это вероятностники, религиозные вероятностники. Итак, люди, которые думают, что теория вероятностей — это единственная структура, которую вы можете использовать для объяснения машинного обучения. И, как я пытался объяснить в этой статье, в принципе, требовать, чтобы модель мира была полностью вероятностной, — это слишком много. Мы не знаем, как это сделать. Существует вычислительная неразрешимость. Поэтому я предлагаю отказаться от всей этой идеи. И, конечно, вы знаете, что это огромная основа не только машинного обучения, но и всей статистики, которая претендует на то, чтобы быть нормальным формализмом для машинного обучения.

Другая вещь —

ZDNet: Ты в ударе…

ИЛ: — это то, что называется генеративными моделями. Итак, идея в том, что вы можете научиться предсказывать, и, возможно, вы сможете многое узнать о мире с помощью предсказания. Итак, я даю вам фрагмент видео и прошу систему предсказать, что произойдет дальше в видео. И я могу попросить вас предсказать реальные видеокадры со всеми деталями. Но то, о чем я спорю в статье, заключается в том, что на самом деле это слишком большой вопрос и слишком сложный. И это то, о чем я изменил свое мнение. Еще около двух лет назад я был сторонником того, что я называю моделями генерации скрытых переменных, моделями, которые предсказывают, что произойдет дальше, или недостающую информацию, возможно, с помощью скрытой переменной, если прогноз не может быть детерминированным. И я отказался от этого. И причина, по которой я отказался от этого, основана на эмпирических результатах, когда люди пытались применить своего рода обучение на основе прогнозирования или реконструкции того типа, который используется в моделях большого языка Бертана, они пытались применить это к изображениям, и это был полный провал. И причина, по которой это полный провал, опять же, из-за ограничений вероятностных моделей, где относительно легко предсказать дискретные токены, такие как слова, потому что мы можем вычислить распределение вероятностей по всем словам в словаре. Это просто. Но если мы попросим систему выдать распределение вероятностей по всем возможным видеокадрам, мы понятия не имеем, как его параметризовать, или у нас есть некоторое представление о том, как его параметризовать, но мы не знаем, как его нормализовать. Это наталкивается на неразрешимую математическую проблему, которую мы не знаем, как решить.

«Мы еще не достигли той точки, когда наши интеллектуальные машины обладают таким же здравым смыслом, как кошка», — замечает Лекун. «Итак, почему бы нам не начать с этого? Что это такое, что позволяет кошке воспринимать окружающий мир, делать довольно умные вещи, планировать и тому подобное, а собакам — еще лучше?»

Итак, вот почему я говорю, давайте откажемся от теории вероятностей или основы для подобных вещей, более слабой, основанной на энергии модели. Я также выступал за это на протяжении десятилетий, так что это не недавнее событие. Но в то же время отказываясь от идеи генеративных моделей, потому что в мире есть много вещей, которые непонятны и не предсказуемы. Если вы инженер, вы называете это шумом. Если вы физик, вы называете это теплом. И если вы специалист по машинному обучению, вы называете это, знаете ли, несущественными деталями или как-то еще.

Итак, пример, который я использовал в статье или использовал в выступлениях, заключается в том, что вам нужна система прогнозирования мира, которая помогла бы в самоуправляемом автомобиле, верно? Он хочет иметь возможность заранее предсказывать траектории всех других автомобилей, что произойдет с другими объектами, которые могут двигаться, пешеходами, велосипедами, ребенком, бегущим за футбольным мячом, и тому подобными вещами. Итак, о самых разных вещах в мире. Но вдоль дороги могут быть деревья, и сегодня дует ветер, так что листья колышутся на ветру, а за деревьями есть пруд, и на пруду есть рябь. И это, по сути, в значительной степени непредсказуемые явления. И вы не хотите, чтобы ваша модель тратила значительное количество ресурсов на предсказание тех вещей, которые одновременно трудно предсказать и не имеют отношения к делу. Так вот почему я выступаю за архитектуру совместного встраивания, те вещи, где переменная, которую вы пытаетесь смоделировать, вы не пытаетесь ее предсказать, вы пытаетесь ее смоделировать, но она проходит через кодировщик, и этот кодировщик может исключить множество деталей о входных данных, которые являются неуместный или слишком сложный — по сути, эквивалентный шуму.

ZDNet: Ранее в этом году мы обсуждали модели, основанные на энергии, JEPA и H-JEPA. Мое ощущение, если я вас правильно понимаю, заключается в том, что вы находите точку низкой энергии, где эти два предсказания вложений X и Y наиболее похожи, что означает, что если в одном из них есть голубь на дереве, а на заднем плане сцены что-то есть, это может быть не так. существенные моменты, которые делают эти вложения близкими друг к другу.

ИЛ: Верно. Таким образом, архитектура JEPA фактически пытается найти компромисс между извлечением представлений, которые максимально информативны о входных данных, но также предсказуемы друг от друга с некоторым уровнем точности или надежности. Это находит компромисс. Итак, если у него есть выбор между расходованием огромного количества ресурсов, включая детали движения листьев, а затем моделированием динамики, которая определит, как листья будут двигаться через секунду, или просто сбросит это на пол, просто запустив переменную Y через предсказатель, который устраняет все эти детали, вероятно, просто устранит их, потому что их слишком сложно смоделировать и запечатлеть.

ZDNet: Удивляет то, что вы были большим сторонником того, чтобы сказать: «Это работает, мы позже разберемся с теорией термодинамики, чтобы объяснить это». Здесь вы выбрали подход: «Я не знаю, как мы обязательно решим это, но я хочу выдвиньте несколько идей, чтобы подумать об этом», и, возможно, даже приблизитесь к теории или гипотезе, по крайней мере. Это интересно, потому что есть много людей, которые тратят много денег, работая над автомобилем, который может видеть пешехода независимо от того, обладает ли автомобиль здравым смыслом. И я представляю, что некоторые из этих людей не будут возмущены, но они скажут: «Это прекрасно, нам все равно, если в этом нет здравого смысла, мы создали симуляцию, симуляция потрясающая, и мы собираемся продолжать совершенствоваться, мы собираемся продолжать масштабирование симуляции.»

И поэтому интересно, что вы сейчас можете сказать: давайте сделаем шаг назад и подумаем о том, что мы делаем. И индустрия говорит, что мы просто собираемся масштабировать, масштабировать, масштабировать, масштабировать, потому что этот механизм действительно работает. Я имею в виду, что полупроводниковый механизм графических процессоров действительно работает.

ИЛ: Там примерно пять вопросов. Итак, я имею в виду, что масштабирование необходимо. Я не критикую тот факт, что мы должны масштабироваться. Мы должны масштабироваться. Эти нейронные сети становятся лучше по мере того, как они становятся больше. Нет никаких сомнений в том, что мы должны масштабироваться. И те, у кого будет некоторый уровень здравого смысла, будут большими. Я думаю, что с этим ничего не поделаешь. Таким образом, масштабирование — это хорошо, это необходимо, но недостаточно. Вот к чему я клоню. Это не просто масштабирование. Это первый пункт.

Второй момент, стоит ли теория на первом месте и тому подобное. Итак, я думаю, что на первом месте стоят концепции, согласно которым вы должны сделать шаг назад и сказать: хорошо, мы построили эту лестницу, но мы хотим полететь на Луну, и эта лестница никак не приведет нас туда. Итак, по сути, то, что я здесь пишу, заключается в том, что нам нужно строить ракеты. Я не могу подробно рассказать вам о том, как мы строим ракеты, но вот основные принципы. И я не пишу теорию для этого или что-то в этом роде, но это будет ракета, ясно? Или космический лифт, или что-то еще. Возможно, у нас нет всех деталей всей технологии. Мы пытаемся заставить некоторые из этих вещей работать, как я работал над JEPA. Совместное встраивание действительно хорошо работает для распознавания изображений, но при использовании его для обучения модели мира возникают трудности. Мы работаем над этим, мы надеемся, что скоро это заработает, но там мы можем столкнуться с некоторыми препятствиями, которые, возможно, не сможем преодолеть.

Затем в статье есть ключевая идея о рассуждениях, согласно которой, если мы хотим, чтобы системы могли планировать, что вы можете рассматривать как простую форму рассуждений, у них должны быть скрытые переменные. Другими словами, вещи, которые не вычисляются никакой нейронной сетью, но вещи, которые есть — значение которых выводится таким образом, чтобы минимизировать некоторую целевую функцию, некоторую функцию затрат. И затем вы можете использовать эту функцию затрат для управления поведением системы. И это совсем не новая идея, верно? Это очень классическое, оптимальное управление, основа которого восходит к концу 50-х — началу 60-х. Итак, не претендую здесь ни на какую новизну. Но я хочу сказать, что этот тип вывода должен быть частью интеллектуальной системы, способной к планированию, и чье поведение может быть определено или контролироваться не запрограммированным поведением, не имитацией, а целевой функцией, которая управляет поведением — не обязательно стимулирует обучение, но это определяет поведение. Вы знаете, у нас это есть в нашем мозгу, и у каждого животного есть внутренняя стоимость или внутренняя мотивация для чего-то. Это заставляет девятимесячных младенцев хотеть встать. Стоимость того, чтобы быть счастливым, когда вы встаете, этот термин в функции затрат жестко задан. Но то, как вы стоите на ногах, — это не то, чему вы учитесь.

«Масштабирование — это хорошо, это необходимо, но недостаточно», — говорит ЛеКун о гигантских языковых моделях, таких как программы на базе Transformer разновидности GPT-3. Приверженцы Transformer верят: «Мы маркируем все и обучаем гигантские модели делать дискретные прогнозы, и каким-то образом из этого выйдет искусственный интеллект… но я думаю, что в нем не хватает важных деталей».

ZDNet: Просто чтобы завершить этот момент, большая часть сообщества глубокого обучения, похоже, не против продолжить то, что не имеет здравого смысла. Похоже, вы приводите здесь довольно четкий аргумент о том, что в какой-то момент это становится тупиком. Некоторые люди говорят, что нам не нужен автономный автомобиль со здравым смыслом, потому что это сделает масштабирование. Это звучит так, как будто ты говоришь, что нехорошо просто продолжать идти по этому пути?

ИЛ: Вы знаете, я думаю, вполне возможно, что у нас будут автономные автомобили пятого уровня без здравого смысла. Но проблема с этим подходом в том, что это будет временным, потому что вам придется чертовски тщательно все продумать. Итак, вы знаете, нанесите на карту весь мир, зафиксируйте все виды специфического поведения в экстремальных ситуациях, соберите достаточно данных, чтобы у вас были все странные ситуации, с которыми вы можете столкнуться на дорогах, бла-бла-бла. И я предполагаю, что при достаточных инвестициях и времени вы можете просто воплотить это в жизнь. Но, в конечном счете, будет найдено более удовлетворительное и, возможно, лучшее решение, включающее системы, которые лучше понимают, как устроен мир, и обладают, знаете ли, некоторым уровнем того, что мы бы назвали здравым смыслом. Это не обязательно должен быть здравый смысл на уровне человека, но какой-то тип знаний, которые система может приобрести, наблюдая, но не наблюдая за тем, как кто-то водит машину, просто наблюдая за перемещением предметов и многое понимая о мире, создавая фундамент фоновых знаний о том, как устроен мир, поверх которого ты можешь научиться водить машину.

Позвольте мне привести исторический пример этого. Классическое компьютерное зрение основывалось на множестве встроенных инженерных модулей, поверх которых у вас был бы своего рода тонкий слой обучения. Итак, материал, который был превзойден AlexNet в 2012 году, в основном состоял из первого этапа, своего рода, ручного извлечения объектов, таких как SIFTs [Масштабно-инвариантное преобразование объектов (SIFT), классический визуальный метод для идентификации заметных объектов на изображении] и HOG [Гистограмма ориентированных градиентов, еще один классический техника] и различные другие вещи. А затем второй слой, своего рода, функций среднего уровня, основанных на ядрах функций и чем-то еще, и какой-то неконтролируемый метод. А затем поверх этого вы добавляете машину опорных векторов или же относительно простой классификатор. И это был своего рода стандартный конвейер с середины 2000-х по 2012 год. И это было заменено сквозными сверточными сетями, где вы ничего из этого не подключаете, у вас просто есть много данных, и вы обучаете все от начала до конца, это подход, который я отстаивал долгое время, но вы знаете, до тех пор, было непрактично для больших проблем.

Аналогичная история была в распознавании речи, где, опять же, было огромное количество детальной разработки того, как вы предварительно обрабатываете данные, извлекаете массовую цепочку [обратную быстрому преобразованию Фурье для обработки сигналов], а затем у вас есть Скрытые марковские модели с сортировкой-из, заданной архитектуры, бла-бла-бла, со смесью гауссиан. Итак, это немного похоже на архитектуру vision, где у вас есть интерфейс ручной работы, а затем несколько неконтролируемый, обученный средний слой, а затем контролируемый слой сверху. И теперь это было, по сути, уничтожено сквозными нейронными сетями. Так что я вроде как вижу нечто подобное там, когда пытаешься научиться всему, но у тебя должна быть правильная подготовка, правильная архитектура, правильная структура.

По его словам, сторонники самоуправляемых автомобилей, такие стартапы, как Waymo и Wayve, были «немного слишком оптимистичны», думая, что они могут «использовать данные, и вы сможете узнать практически все». Самоуправляемые автомобили на 5-м уровне ADAS возможны, «Но вам придется изрядно потрудиться над этим», и они будут «хрупкими», как ранние модели компьютерного зрения.

ZDNet: Вы хотите сказать, что некоторые люди попытаются спроектировать то, что в настоящее время не работает с глубоким обучением, для применения, скажем, в промышленности, и они собираются начать создавать что-то, что устарело в компьютерном зрении?

ИЛ: Верно. И отчасти именно поэтому люди, работающие над автономным вождением, были слишком оптимистичны в последние несколько лет, потому что, знаете ли, у вас есть такие общие вещи, как сверточные сети и трансформаторы, которые вы можете передавать в него данные, и он может научиться практически чему угодно. Итак, вы говорите: хорошо, у меня есть решение этой проблемы. Первое, что вы делаете, — это создаете демонстрационную версию, в которой автомобиль несколько минут ездит сам по себе, никому не причиняя вреда. И тогда вы понимаете, что есть много угловых случаев, и вы пытаетесь построить кривую того, насколько лучше я становлюсь, когда удваиваю тренировочный набор, и вы понимаете, что никогда не добьетесь этого, потому что есть все виды угловых случаев. И вам нужно иметь автомобиль, который будет вызывать аварию со смертельным исходом реже, чем каждые 200 миллионов километров, верно? Итак, чем вы занимаетесь? Что ж, вы идете в двух направлениях.

Первое направление заключается в том, как я могу уменьшить объем данных, необходимых для обучения моей системы? И вот тут-то и приходит на помощь самоконтролируемое обучение. Итак, многие производители самоуправляемых автомобилей очень заинтересованы в обучении под наблюдением, потому что это способ по-прежнему использовать гигантские объемы контролируемых данных для имитационного обучения, но, по сути, повысить производительность за счет предварительной подготовки. И это еще не совсем получилось, но это произойдет. И тогда есть другой вариант, который приняли большинство более продвинутых на данный момент компаний, а именно: хорошо, мы можем провести комплексное обучение, но есть много сложных случаев, с которыми мы не можем справиться, поэтому мы собираемся просто разработать системы, которые будут заботиться об этих угловых случаях и, по сути, рассматривать их как особые случаи, и жестко настраивать управление, а затем жестко настраивать множество базовых действий для обработки особых ситуаций. И если у вас есть достаточно большая команда инженеров, вы можете справиться с этим. Но это займет много времени, и, в конце концов, он все равно будет немного хрупким, возможно, достаточно надежным, чтобы его можно было развернуть, но с некоторым уровнем хрупкости, которого при более основанном на обучении подходе, который может появиться в будущем, у автомобилей не будет, потому что он может иметь некоторый уровень здравого смысла и понимания того, как устроен мир.

В краткосрочной перспективе победит своего рода инженерный подход — он уже побеждает. Это Waymo и Cruise of the world, и Wayve, и что угодно еще, это то, что они делают. Кроме того, существует подход к обучению под самоконтролем, который, вероятно, поможет инженерному подходу добиться прогресса. Но тогда, в долгосрочной перспективе, которая может оказаться слишком долгой для этих компаний, вероятно, будет своего рода более интегрированной автономной интеллектуальной системой вождения.

ZDNet: Мы говорим, что за пределами инвестиционного горизонта большинства инвесторов.

ИЛ: Это верно. Итак, вопрос в том, потеряют ли люди терпение или кончатся ли деньги до того, как производительность достигнет желаемого уровня.

ZDNet: Есть ли что-нибудь интересное, чтобы сказать о том, почему вы выбрали некоторые элементы, которые вы выбрали в модели? Потому что вы цитируете Кеннета Крейка [1943, Природа объяснения], и вы цитируете Брайсона и Хо [1969, Прикладной оптимальный контроль], и мне любопытно, почему вы начали с этих влияний, если вы особенно верили, что у этих людей все получилось настолько, насколько они сделали. Почему вы начали именно с этого?

ИЛ: Ну, я, конечно, не думаю, что они продумали все детали. Итак, Брайсон и Хо, это книга, которую я прочитал еще в 1987 году, когда был постдоком у Джеффри Хинтона в Торонто. Но я знал об этом направлении работы заранее, когда писал докторскую диссертацию, и, по сути, установил связь между оптимальным контролем и backprop. Если бы вы действительно хотели быть, ну, знаете, еще одним Шмидхубером, вы бы сказали, что настоящими изобретателями backprop на самом деле были теоретики оптимального управления Генри Дж. Келли, Артур Брайсон и, возможно, даже Лев Понтрягин, который является российским теоретиком оптимального управления еще в конце 50-х годов.

Итак, они разобрались в этом, и на самом деле, вы действительно можете увидеть корень этого, математику, лежащую в основе этого, — лагранжеву механику. Так что вы можете вернуться к Эйлеру и Лагранжу, на самом деле, и вроде как найти намек на это в их определении лагранжевой классической механики, на самом деле. Итак, в контексте оптимального управления, то, что интересовало этих ребят, было в основном вычислением траекторий ракет. Вы знаете, это была ранняя космическая эра. И если у вас есть модель ракеты, она сообщает вам, что вот состояние ракеты в момент времени t, и вот действие, которое я собираюсь предпринять, итак, тяга и приводы различных видов, вот состояние ракеты в момент времени t + 1.

ZDNet: Модель состояния-действия, модель ценности.

ИЛ: Верно, основа контроля. Итак, теперь вы можете смоделировать запуск вашей ракеты, представив последовательность команд, и тогда у вас будет некоторая функция затрат, которая представляет собой расстояние ракеты до ее цели, космической станции или чего-то еще. И затем, используя своего рода градиентный спуск, вы можете выяснить, как я могу обновить свою последовательность действий, чтобы моя ракета действительно приблизилась как можно ближе к цели. И это должно быть достигнуто путем обратного распространения сигналов в обратном направлении во времени. И это обратное распространение, градиентное обратное распространение. Эти сигналы называются сопряженными переменными в механике Лагранжа, но на самом деле они являются градиентами. Итак, они изобрели backprop, но они не понимали, что этот принцип может быть использован для обучения многоступенчатой системы, которая может выполнять распознавание образов или что-то в этом роде. Это не было по-настоящему реализовано, возможно, до конца 70-х, начала 80-х, а затем фактически не было реализовано и не заставляло работать до середины 80-х. Итак, вот где backprop действительно, в некотором роде, взлетел, потому что люди показали вот несколько строк кода, с помощью которых вы можете обучать нейронную сеть, сквозную, многослойную. И это снимает ограничения Персептрона. И, да, есть связи с оптимальным контролем, но это нормально.

ZDNet: Итак, это длинный способ сказать, что те влияния, с которых вы начинали, возвращались к backprop, и это было важно для вас как отправная точка?

ИЛ: Да, но я думаю, что люди немного забыли о том, что над этим было довольно много работы, вы знаете, еще в 90-х или даже в 80-х годах, в том числе такими людьми, как Майкл Джордан [отдел мозга и когнитивных наук Массачусетского технологического института] и такими людьми, как этот которые больше не занимаются нейронными сетями, но идея о том, что вы можете использовать нейронные сети для управления, и вы можете использовать классические идеи оптимального управления. Итак, такие вещи, как то, что называется модельно-прогностическим управлением, то, что сейчас называется модельно-прогностическим управлением, идея о том, что вы можете смоделировать или представить результат последовательности действий, если у вас есть хорошая модель системы, которую вы пытаетесь контролировать, и среды, в которой она находится. И затем с помощью градиентного спуска, по сути — это не обучение, это умозаключение — вы можете выяснить, какая наилучшая последовательность действий сведет к минимуму мою цель. Итак, использование функции затрат со скрытой переменной для вывода — это, я думаю, то, о чем современные разработчики крупномасштабных нейронных сетей забыли. Но долгое время это был очень классический компонент машинного обучения. Таким образом, каждая байесовская сеть, или графическая модель, или вероятностная графическая модель использовали этот тип вывода. У вас есть модель, которая фиксирует зависимости между кучей переменных, вам сообщают значение некоторых переменных, а затем вы должны вывести наиболее вероятное значение остальных переменных. Это основной принцип вывода в графических моделях, байесовских сетях и тому подобном. И я думаю, что это в основном то, о чем должны быть рассуждения, рассуждения и планирование.

ZDNet: Ты скрытый байесовец.

ИЛ: Я не являюсь вероятностным байесовцем. Я уже отпускал эту шутку раньше. На самом деле я был в NeurIPS несколько лет назад, я думаю, это было в 2018 или 2019 году, и меня заснял на видео байесовец, который спросил меня, являюсь ли я байесовцем, и я сказал, да, я байесовец, но я не вероятностный байесовец, своего рода, байесовский, основанный на энергии, если хотите.

ZDNet: Что определенно звучит как что-то из «Звездного пути». Вы упомянули в конце этой статьи, что потребуются годы действительно напряженной работы, чтобы реализовать то, что вы себе представляете. Расскажите мне о том, в чем состоит часть этой работы на данный момент.

ИЛ: Итак, в статье я объясняю, как вы тренируете и создаете JEPA. И критерий, за который я выступаю, заключается в том, чтобы каким-то образом максимизировать информационное содержание извлекаемых представлений о входных данных. И затем второй — минимизация ошибки прогнозирования. И если у вас есть скрытая переменная в предикторе, которая позволяет предиктору быть недетерминированным, вы должны также упорядочить эту скрытую переменную, минимизировав ее информационное содержание. Итак, теперь у вас есть два вопроса: как максимизировать информационное содержание выходных данных некоторой нейронной сети, а другой — как минимизировать информационное содержание некоторой скрытой переменной? И если вы не сделаете эти две вещи, система рухнет. Он не узнает ничего интересного. Это даст нулевую энергию всему, что-то в этом роде, что не является хорошей моделью зависимости. Это проблема предотвращения коллапса, о которой я упоминаю.

И я говорю, что из всего, что когда-либо делали люди, есть только две категории методов предотвращения коллапса. Один из них — это контрастивные методы, а другой — это те регуляризованные методы. Итак, эта идея максимизации информационного содержания представлений двух входных данных и минимизации информационного содержания скрытой переменной, которая относится к регуляризованным методам. Но большая часть работы в этих архитектурах совместного встраивания выполняется с использованием контрастных методов. На самом деле, они, вероятно, самые популярные на данный момент. Итак, вопрос в том, как именно вы измеряете информационное содержание таким образом, чтобы его можно было оптимизировать или минимизировать? И вот тут-то все и усложняется, потому что мы на самом деле не знаем, как измерить информационное содержание. Мы можем приблизить его, мы можем установить верхнюю границу, мы можем делать подобные вещи. Но на самом деле они не измеряют информационное содержание, которое, на самом деле, в какой-то степени даже не является четко определенным.

ZDNet: Это не Закон Шеннона? Это не теория информации? У вас есть определенное количество энтропии, хорошая энтропия и плохая энтропия, и хорошая энтропия — это система символов, которая работает, плохая энтропия — это шум. Разве все это не решено Шеннон?

ИЛ: Вы правы, но за этим кроется серьезный недостаток. Вы правы в том смысле, что если к вам поступают данные, и вы можете каким-то образом квантовать данные в дискретные символы, а затем вы измеряете вероятность каждого из этих символов, то максимальный объем информации, переносимой этими символами, равен сумме возможных символов Pi log Pi, верно? Где Pi — вероятность символа i — это энтропия Шеннона. [Закон Шеннона обычно формулируется как H = — ∑ pi log pi.]

Однако вот в чем проблема: что такое число Пи? Это легко, когда количество символов невелико и символы рисуются независимо друг от друга. Когда есть много символов и зависимостей, это очень сложно. Итак, если у вас есть последовательность битов, и вы предполагаете, что биты независимы друг от друга, а вероятность равна от единицы до нуля или что-то еще, тогда вы можете легко измерить энтропию, без проблем. Но если то, что приходит к вам, — это многомерные векторы, например, фреймы данных или что-то в этом роде, что такое число Пи? Что такое распределение? Сначала вы должны квантовать это пространство, которое является многомерным, непрерывным пространством. Вы понятия не имеете, как это правильно квантовать. Вы можете использовать k-средства и т.д. Это то, что люди делают, когда они выполняют сжатие видео и изображений. Но это только приблизительное представление. И тогда вы должны сделать предположения о независимости. Итак, ясно, что в видео последовательные кадры не являются независимыми. Существуют зависимости, и этот кадр может зависеть от другого кадра, который вы видели час назад, на котором было изображено то же самое. Итак, вы знаете, что вы не можете измерить число Пи. Чтобы измерить число Пи, у вас должна быть система машинного обучения, которая учится прогнозировать. И вот вы возвращаетесь к предыдущей проблеме. Таким образом, вы можете лишь приблизительно оценить объем информации, по существу.

«Вопрос в том, как именно вы измеряете информационное содержание таким образом, чтобы его можно было оптимизировать или минимизировать?» говорит ЛеКун. «И вот тут все усложняется, потому что мы на самом деле не знаем, как измерить информационное содержание». Лучшее, что можно сделать на данный момент, — это найти прокси, который «достаточно хорош для той задачи, которую мы хотим».

Позвольте мне привести более конкретный пример. Один из алгоритмов, с которым мы играли, и о котором я говорил в статье, — это такая штука, как VICReg, регуляризация дисперсии-инвариантности-ковариации. Это в отдельной статье, которая была опубликована в ICLR, и она была размещена на arXiv примерно за год до этого, в 2021 году. И идея там заключается в том, чтобы максимально использовать информацию. И идея на самом деле возникла из более ранней статьи моей группы под названием Barlow Twins. Вы максимизируете информационное содержание вектора, выходящего из нейронной сети, в основном предполагая, что единственной зависимостью между переменными является корреляция, линейная зависимость. Итак, если вы предполагаете, что единственная возможная зависимость между парами переменных или между переменными в вашей системе — это корреляции между парами значений, что является чрезвычайно грубым приближением, тогда вы можете максимизировать информационное содержание, исходящее из вашей системы, убедившись, что все переменные имеют ненулевые значения. отклонение — скажем, первое отклонение, не имеет значения, что это такое, — а затем их обратная корреляция, тот же процесс, который называется отбеливанием, это тоже не ново. Проблема с этим заключается в том, что вы вполне можете иметь чрезвычайно сложные зависимости между группами переменных или даже просто парами переменных, которые не являются линейными зависимостями, и они не отображаются в корреляциях. Итак, например, если у вас есть две переменные, и все точки этих двух переменных выстраиваются в своего рода спираль, то между этими двумя переменными существует очень сильная зависимость, верно? Но на самом деле, если вы вычислите корреляцию между этими двумя переменными, они не будут коррелированы. Итак, вот пример, где информационное содержание этих двух переменных на самом деле очень мало, это всего лишь одна величина, потому что это ваше положение в спирали. Они некоррелированы, поэтому вы думаете, что у вас есть много информации, исходящей из этих двух переменных, когда на самом деле это не так, у вас есть только, знаете ли, вы можете предсказать одну из переменных по другой, по сути. Итак, это показывает, что у нас есть только очень приблизительные способы измерения информационного содержания.

ZDNet: И это одна из тех вещей, над которыми вы должны сейчас работать с этим? Это более важный вопрос о том, как мы узнаем, когда мы максимизируем и минимизируем информационное содержание?

ИЛ: Или достаточно ли хорош прокси, который мы используем для этого, для той задачи, которую мы хотим. На самом деле, мы делаем это постоянно в машинном обучении. Функции затрат, которые мы минимизируем, никогда не являются теми, которые мы на самом деле хотим минимизировать. Итак, например, вы хотите заняться классификацией, хорошо? Функция затрат, которую вы хотите минимизировать при обучении классификатора, — это количество ошибок, которые совершает классификатор. Но это недифференцируемая, ужасная функция затрат, которую вы не можете минимизировать, потому что вы знаете, что собираетесь изменить веса своей нейронной сети, ничего не изменится, пока одна из этих выборок не изменит свое решение, а затем произойдет скачок ошибки, положительный или отрицательный.

ZDNet: Итак, у вас есть прокси, который является целевой функцией, о которой вы можете определенно сказать, что мы определенно можем передавать градиенты этой вещи.

ИЛ: Это верно. Итак, люди используют эту кросс-энтропийную потерю, или SOFTMAX, у вас есть несколько названий для этого, но это одно и то же. И это в основном плавная аппроксимация количества ошибок, которые допускает система, где сглаживание производится, в основном, с учетом оценки, которую система дает каждой из категорий.

ZDNet: Есть ли что-то, чего мы не рассмотрели, что вы хотели бы осветить?

ИЛ: Вероятно, это подчеркивает основные моменты. Я думаю, что системы искусственного интеллекта должны уметь рассуждать, и процесс, за который я выступаю, заключается в минимизации некоторой цели по отношению к некоторой скрытой переменной. Это позволяет системам планировать и рассуждать. Я думаю, нам следует отказаться от вероятностной структуры, потому что она неразрешима, когда мы хотим делать такие вещи, как захват зависимостей между многомерными непрерывными переменными. И я выступаю за отказ от генеративных моделей, потому что системе придется выделять слишком много ресурсов на предсказание вещей, которые слишком трудно предсказать, и, возможно, потреблять слишком много ресурсов. И это в значительной степени все. Это основные сообщения, если хотите. А затем общая архитектура. Тогда есть эти спекуляции о природе сознания и роли конфигуратора, но это действительно спекуляции.

ZDNet: Мы вернемся к этому в следующий раз. Я собирался спросить вас, как вы оцениваете эту штуку? Но я полагаю, что сейчас вы немного далеки от бенчмаркинга?

ИЛ: Не обязательно так далеко в своего рода упрощенных версиях. Вы можете делать то, что все делают при обучении контролю или подкреплению, то есть вы тренируете вещь играть в игры Atari или что-то в этом роде, или в какую-то другую игру, в которой есть некоторая неопределенность.

ZDNet: Спасибо, что уделили мне время, Ян. Интервью: https://www.zdnet.com/article/hybrid-workers-dont-want-to-return-to-the-office-but-soon-they-might-have-to/