Ингрид Фаделли , Phys.org. под редакцией Лизы Лок , рецензент Роберт Эган

Модели языка зрения (VLM) — это передовые вычислительные методы, предназначенные для обработки как изображений, так и письменных текстов, делая соответствующие прогнозы. Помимо прочего, эти модели могут использоваться для улучшения возможностей роботов, помогая им точно интерпретировать свое окружение и более эффективно взаимодействовать с пользователями-людьми.
Группа исследователей из Итальянского технологического института (IIT) и Абердинского университета недавно представили новую концептуальную структуру и набор данных, содержащий данные, сгенерированные вычислительным путем, которые можно использовать для обучения VLM задачам пространственного мышления. Их структура и набор данных, представленные в статье, размещенной на сервере препринтов arXiv , могут способствовать разработке систем воплощенного искусственного интеллекта (ИИ), которые лучше оснащены для навигации в реальных средах и общения с людьми. Это исследование является результатом проекта FAIR* и является результатом недавнего сотрудничества между исследовательской линией «Социальное познание во взаимодействии человека и робота» (S4HRI) в ИИТ под руководством профессора Агнешки Выковской и Лабораторией прогнозирования действий в Университете Абердина, которую возглавляет профессор Патрик Бах.
«Наша исследовательская группа изучает, как механизмы социального познания человека задействуются во время взаимодействия с искусственными агентами», — рассказал Tech Xplore Давиде Де Томмазо, технолог IIT и соавтор статьи. «Наши предыдущие исследования показали, что при определенных условиях люди приписывают роботам преднамеренность и взаимодействуют с ними способами, которые очень похожи на взаимодействия с другими социальными партнерами.
«Поэтому понимание этих механизмов, особенно роли невербальных сигналов, таких как взгляд, жесты и пространственное поведение, имеет решающее значение для разработки эффективных вычислительных моделей социального познания у роботов».
Визуальное восприятие перспективы (VPT), способность понимать, как выглядит визуальная сцена с точки зрения другого человека, может быть очень полезной для роботизированных систем, поскольку это может позволить им понимать инструкции, которые им дают, сотрудничать с другими агентами и успешно выполнять миссии. Де Томмазо и его коллеги недавно пытались воспроизвести эту ключевую способность у роботов, одновременно гарантируя, что роботы смогут применять ее в широком диапазоне контекстов. «Наша главная цель состояла в том, чтобы дать роботам возможность эффективно рассуждать о том, что другие агенты (человеческие или искусственные) могут или не могут воспринимать со своих точек зрения в общих средах», — сказал Де Томмазо. «Например, роботы должны точно оценивать, читаем ли текст с точки зрения другого человека, скрыт ли объект за препятствием или ориентирован ли объект подходящим образом, чтобы человек мог схватить его или указать на него.
«Несмотря на то, что в современных базовых моделях зачастую отсутствуют сложные возможности пространственного мышления, мы твердо убеждены, что использование моделей большого языка для понимания сцен, наряду с синтетическими представлениями сцен, открывает значительные перспективы для моделирования человеческих возможностей визуального восприятия в воплощенных искусственных агентах». Чтобы улучшить возможности VPT VLM, исследователи составили набор данных, который мог бы поддержать их обучение задачам пространственного мышления. Используя Omniverse Replicator от NVIDIA, платформу для генерации синтетических данных, они создали новый «искусственный мир», который по сути состоял из простой сцены, захватывающей куб, который рассматривался с разных углов и расстояний. Затем они взяли захваченные 3D-изображения куба в этом синтетическом мире, добавив описание на естественном языке для каждого из них, а также матрицу преобразования 4×4, математическую структуру, которая представляет положение и ориентацию куба. Набор данных был опубликован в сети и может использоваться другими командами для обучения своих VLM.
«Каждое изображение, снятое виртуальной камерой, сопровождается текстовой подсказкой, содержащей размеры куба, и точной матрицей преобразования, которая кодирует пространственные отношения между камерой и объектом — тип данных, которые роботы используют для планирования движений и взаимодействия с миром», — пояснил Джоэл Карри, первый автор статьи, аспирант Абердинского университета и научный сотрудник Итальянского технологического института. «Поскольку среда синтетическая, мы контролируем каждый аспект и быстро генерируем десятки тысяч пар изображение-матрица (что практически невозможно в реальных условиях). Это способ научить роботов не просто видеть, но и понимать пространство так, как это делают физические существа». Пока что структура, представленная исследователями, является лишь теоретической, однако вскоре она может открыть новые возможности для обучения реальных VLM. Сами исследователи вскоре смогут оценить ее потенциал, обучив модель с использованием скомпилированного ими набора данных или аналогичных синтетически сгенерированных данных. «То, что мы сделали, в основе своей концептуально», — сказал Керри. «Мы предлагаем новый способ для ИИ изучать пространство, не только с его собственной точки зрения, но и с чьей-то еще. Вместо жестко закодированной геометрии мы рассматриваем Visual Perspective Taking как то, чему модель может научиться, используя зрение и язык. Это шаг к воплощенному познанию — роботы, которые не просто видят мир, но и могут представить, как он выглядит для других. Мы рассматриваем это как основу для настоящего социального интеллекта в машинах».
Недавняя работа Де Томмазо, Карри, Миньо и их коллег может вдохновить на создание других подобных синтетических наборов данных для обучения VLM задачам пространственного мышления. Эти усилия могли бы в совокупности способствовать улучшению гуманоидных роботов и других воплощенных агентов ИИ, потенциально облегчая их развертывание в реальных условиях.
«Нашим следующим шагом станет создание максимально реалистичной виртуальной среды, что позволит сократить расстояние между сценой из смоделированного пространства и реальным миром», — добавил Джоэле Миньо, выпускник Римского университета Ла Сапиенца по специальности «Искусственный интеллект и робототехника», а недавно присоединившийся к исследовательскому подразделению S4HRI в ИИТ в качестве научного сотрудника. «Этот шаг имеет решающее значение для переноса знаний, полученных моделью в процессе моделирования, в реальный мир и для того, чтобы воплощенный робот мог использовать пространственное мышление. Как только это будет достигнуто, мы будем заинтересованы в исследовании того, как эти возможности могут сделать взаимодействие с людьми более эффективным в сценариях, где они разделяют пространственное понимание сцены».
Дополнительная информация: Джоэл Карри и др., На пути к воплощенному познанию в роботах через пространственно обоснованные синтетические миры, arXiv (2025). DOI: 10.48550/arxiv.2505.14366
Информация о журнале: arXiv