Могут ли модели глубокого обучения распознавать трехмерные фигуры так же, как это делают люди?

В исследовании рассматривается вопрос о том, опираются ли современные модели глубокого обучения на те же представления о форме, что и люди, или же они распознают объекты по-другому. (Изображение частично создано искусственным интеллектом и отредактировано вручную Эдсоном де ла О.)

Стул все равно будет выглядеть как стул, даже если его поверхность сведена к редкому набору точек. Люди удивительно хорошо распознают объекты по такой минимальной трехмерной информации. В новом исследовании постдока программы SFI Шухао Фу и его соавторов рассматривается вопрос о том, представляют ли модели глубокого обучения трехмерные формы так же, как это делает человеческое зрение, или же они распознают объекты другими способами.

В исследовании сравнивается способность человека к распознаванию облаков точек с двумя ведущими моделями: «динамической графовой свёрточной нейронной сетью» на основе свёрточных нейронных сетей и «точечным трансформером» на основе трансформера. В ходе трёх экспериментов исследователи усложняли задачу распознавания, уменьшая плотность точек, искажая локальную геометрическую структуру и перемешивая части объектов. Люди справлялись с этой задачей, когда облака точек становились разреженными или когда локальная геометрия изменялась, но их эффективность резко падала, когда нарушалась конфигурация частей объекта. Эта закономерность свидетельствует о том, что трехмерное зрение человека в значительной степени зависит от общей формы и пространственного расположения частей объекта.

Среди всех моделей Point Transformer наиболее точно воспроизводит поведение человека. Чтобы понять почему, авторы провели абляционные исследования, систематически удаляя части модели, чтобы выяснить, какие из них в наибольшей степени влияют на поведение, схожее с человеческим. Они обнаружили, что ключевым фактором является иерархическое уменьшение разрешения, которое позволяет модели создавать все более абстрактные представления формы на разных уровнях. Удаление этого модуля снижало сходство с поведением человека, а добавление его в DGCNN улучшало его.

«Иерархическая абстракция оказалась важнейшим фактором, выявленным в ходе аберрационных тестов, — говорит Фу. — Она побуждает модель интегрировать информацию по всей форме объекта, что приводит к более устойчивому и человекоподобному поведению». Это открытие открывает многообещающие перспективы для будущих моделей искусственного интеллекта, которым необходимо более точно распознавать трехмерные объекты.

Прочитайте статью «Иерархическая абстракция обеспечивает обработку трехмерных форм, как у человека, в моделях глубокого обучения» в PLoS Comput Biol (13 марта 2026 г.). DOI:10.1371/journal.pcbi.1014047

здесь: https://journals.plos.org/ploscompbiol/article?id=10.1371/journal.pcbi.1014047

Hierarchical abstraction drives human-like 3-D shape processing in deep learning models/Иерархическая абстракция обеспечивает обработку трехмерных форм, как у человека, в моделях глубокого обучения

И люди, и модели глубокого обучения могут распознавать объекты по трехмерным формам, изображенным с использованием скудной визуальной информации, например по набору точек, случайным образом выбранных на поверхностях трехмерных объектов (так называемое облако точек). Хотя модели глубокого обучения справляются с распознаванием объектов по трехмерным формам не хуже людей, остается неясным, формируют ли эти модели представления о трехмерных формах, аналогичные тем, которые использует человеческое зрение для распознавания объектов. Факты свидетельствуют о том, что обучение на примере примерно 10 000 объектов позволяет моделям формировать представления о локальных геометрических структурах трехмерных форм. Однако мы предполагаем, что их представления о трехмерных глобальных формах все еще ограничены. Чтобы проверить эту гипотезу, мы провели три эксперимента с участием людей, в которых систематически изменяли плотность точек и ориентацию объекта (эксперимент 1), локальную геометрическую структуру (эксперимент 2) и конфигурацию деталей (эксперимент 3). В первых двух экспериментах результаты участников были стабильными во всех условиях, но в последнем эксперименте, в котором детали были перемешаны, они значительно ухудшились. Мы сравнили результаты работы человека с двумя типами архитектур глубокого обучения: моделями на основе свёрточных нейронных сетей (например, DGCNN) и моделями на основе трансформеров (например, Point Transformer). Модели на основе трансформеров в большей степени соответствовали результатам работы человека в различных экспериментальных условиях. Моделирование с удалением компонентов показало, что это преимущество во многом обусловлено постепенным уменьшением разрешения, которое позволяет иерархически абстрагировать трёхмерные формы.

Краткое содержание автора

Люди могут с первого взгляда узнавать трехмерные объекты, даже если они представлены в виде разреженных наборов точек, взятых с их поверхности, — так называемых облаков точек. Мы задались вопросом, полагаются ли современные системы глубокого обучения на те же представления о форме, что и люди, или же они распознают объекты по-другому. В этом исследовании мы объединили эксперименты с участием людей и оценку моделей. Участники рассматривали объекты в виде облаков точек, а мы постепенно усложняли задачу распознавания, уменьшая количество точек, переворачивая объекты, изменяя локальные геометрические свойства или перемешивая части объектов. В большинстве случаев люди справлялись с задачей с высокой точностью, но испытывали трудности, когда конфигурация детали нарушалась, что указывает на сильную зависимость от общей трехмерной формы. Затем мы сравнили две ведущие модели глубокого обучения и определили критически важные вычислительные компоненты, отвечающие за точность, сравнимую с человеческой. Наши результаты показали, что постепенное уменьшение разрешения, при котором создаются все более абстрактные представления формы, является основным фактором, обеспечивающим точность, сравнимую с человеческой, в то время как механизмы внимания играют второстепенную роль.

Цифры

Fig 12
Рис . 13
Рис . 1
Рис . 2
Таблица 1
Рис . 3
Рис . 4
Fig 5
Fig 6
Fig 7
Fig 8
Fig 9
Fig 10
Fig 11
Fig 12
Fig 13
Fig 1
Fig 2
Table 1

Цитирование: Фу С., Келлман П. Дж., Лу Х. (2026). Иерархическая абстракция обеспечивает обработку трехмерных форм, как у человека, в моделях глубокого обучения. PLoS Comput Biol 22(3): e1014047. https://doi.org/10.1371/journal.pcbi.1014047

Редактор: Цзянь Лю, Бирмингемский университет, СОЕДИНЕННОЕ КОРОЛЕВСТВО ВЕЛИКОБРИТАНИИ И СЕВЕРНОЙ ИРЛАНДИИ

Получено: 24 сентября 2025 г.; Принято: 20 февраля 2026 г.; Опубликовано: 13 марта 2026 г.

Авторские права: © 2026 Фу и др. Это статья в открытом доступе, распространяемая на условиях Лицензии Creative Commons «С указанием авторства», которая разрешает неограниченное использование, распространение и воспроизведение на любых носителях при условии указания имени автора и источника.

Доступность данных: Все данные, полученные от людей, код для статистического анализа, код для обучения и тестирования сети доступны на Github по адресу https://github.com/fushuhao6/hierarchical_abstraction_in_3D_object_recognition.git. Все стимулы, использованные в экспериментах, доступны на платформе Zenodo по ссылке https://doi.org/10.5281/zenodo.17158227.

Финансирование: Эта работа была поддержана Национальным научным фондом в рамках гранта BCS-2142269 (Единая теория восприятия физической и социальной динамики, https://www.nsf.gov/awardsearch/showAward?AWD_ID=2142269&HistoricalAwards=false) для Х. Л. Финансирующие организации не принимали участия в разработке исследования, сборе и анализе данных, принятии решения о публикации и подготовке рукописи.

Конфликт интересов: Авторы заявляют об отсутствии конфликта интересов.

источник: https://www.santafe.edu/news-center/news/do-deep-learning-models-recognize-3d-shapes-in-the-same-way-humans-do