Технология ИИ реконструирует трехмерные взаимодействия рук и объектов из видео, даже если элементы скрыты

Технология ИИ реконструирует трехмерные взаимодействия рук и объектов из видео, даже если элементы скрыты
фото: https://www.pexels.com

Исследователи из UNIST разработали технологию ИИ, способную реконструировать трехмерные (3D) представления незнакомых объектов, которыми манипулируют обеими руками, а также моделировать хирургические сцены с участием переплетенных рук и медицинских инструментов. Это достижение обеспечивает высокоточную визуализацию дополненной реальности (AR), еще больше расширяя возможности взаимодействия в реальном времени.

Под руководством профессора Сынрюла Бэка из Высшей школы искусственного интеллекта UNIST команда представила Bimanual Interaction 3D Gaussian Splatting (BIGS), инновационную модель ИИ, которая может визуализировать сложные взаимодействия между руками и объектами в 3D, используя только один видеовход RGB.

Эта технология позволяет реконструировать в реальном времени сложную динамику рук и объектов, даже если объекты незнакомы или частично скрыты. Исследование опубликовано на сервере препринтов arXiv.

Традиционные подходы в этой области ограничивались распознаванием только одной руки за раз или реагированием исключительно на предварительно отсканированные объекты, что ограничивало их применимость в реалистичных средах дополненной и виртуальной реальности.

Напротив, BIGS может надежно предсказывать полные формы объектов и рук, даже в сценариях, где части скрыты или закрыты, и может делать это без необходимости в датчиках глубины или нескольких камерах — полагаясь исключительно на одну камеру RGB.

Ядро этой модели ИИ основано на 3D Gaussian Splatting, технике, которая представляет формы объектов в виде облака точек с плавными гауссовыми распределениями. В отличие от методов облака точек, которые создают резкие границы, Gaussian Splatting обеспечивает естественную реконструкцию контактных поверхностей и сложных взаимодействий.

Модель дополнительно решает проблемы окклюзии, выравнивая несколько экземпляров рук с канонической гауссовой структурой и используя предварительно обученную модель диффузии для выборки методом дистилляции счета (SDS), что позволяет ей точно реконструировать невидимые поверхности, включая тыльные стороны объектов.

Обширные эксперименты с использованием международных наборов данных, таких как ARCTIC и HO3Dv3, продемонстрировали, что BIGS превосходит существующие технологии в точном захвате положения рук, форм объектов, контактных взаимодействий и качестве рендеринга. Эти возможности открывают большие перспективы для приложений в виртуальной и дополненной реальности, роботизированном управлении и дистанционном хирургическом моделировании.

Это исследование было проведено при участии первого автора Чонвана Он, а также Кёнхвана Гвака, Гуньён Канга, Джунука Ча, Сухёна Хвана и Хёна Хвана.

Профессор Бэк заметил: «Ожидается, что это достижение облегчит реконструкцию взаимодействия в реальном времени в различных областях, включая VR, AR, роботизированное управление и дистанционное хирургическое обучение».

Источник: https://techxplore.com/news/2025-06-ai-technology-reconstructs-3d-interactions.html