Аватар жжет: ученые ускорили создание 3D-моделей людей и объектов

Техника и технологии

Как российским разработчикам удалось в разы сократить время обработки визуальных двойников

Специалисты Сколтеха научились быстро создавать трехмерные визуальные копии людей и объектов по фотографиям или видео. Такая технология 3D-реконструкции позволит в будущем создавать переговорные, где вместо сотрудников в совещаниях будут принимать участие их аватары, а также кабинеты удаленного осмотра врачом или специальные образовательные платформы, на которых можно будет отрабатывать физические упражнения. Специалисты подчеркивают, что на данный момент предстоит еще решить немало задач, чтобы полученные визуальные двойники были реалистичными, а время их создания сократилось до нескольких минут, но первые и важные шаги в этом направлении уже сделаны.

Реконструктивное начало

Российские ученые усовершенствовали методику 3D-реконструкции, то есть получения трехмерной формы и облика объекта по набору из одного или нескольких изображений или потока видео. Как рассказал «Известиям» аспирант Сколтеха, лауреат четвертой научной премии «Яндекса» Руслан Рахимов, эти методики начали активно развиваться благодаря использованию нейронных сетей.

— Для исследователей основная сложность заключается в том, чтобы усовершенствовать существующие решения и придумать что-то, что будет работать быстрее и качественнее. В основном борьба идет за фотореализм, чтобы искусственную модель, ее сгенерированные виды («рендеры») было невозможно визуально отличить от настоящих кадров. Также идет борьба за скорость — чтобы модель работала как можно быстрее, за минуты, а не за часы, и не требовала при этом мощных вычислительных ресурсов, например облачных серверов, а домашнего компьютера или смартфона было достаточно, — рассказал специалист.

моделирование

Фото: Global Look Press via ZUMA Press/Bryan Smith

Чтобы добиться такого эффекта, специалисты Сколтеха решали задачу под названием «генерация новых видов». На входе они брали набор фотографий объекта или какой-то сцены, а на выходе генерировали изображение под любым ракурсом и с любой точки обзора.

— В нашей работе объект представлялся в виде трехмерного облака точек, и у каждой точки помимо позиции было восемь параметров, которые задают локальные фотогеометрические свойства объекта. Большинство моделей нужно оптимизировать под конкретную сцену, то есть в нашем случае нужно оптимизировать параметры каждой точки так, чтобы они соответствовали изображениям на входе. Ключевой вклад нашей с коллегами работы был в том, что мы избавились от оптимизации и тем самым ускорили процесс получения модели, — объяснил Руслан Рахимов.

Объемное собрание

Ученые научились предсказывать параметры по входным данным, а не оптимизировать их каждый раз для новой сцены и объекта. Для этого они добавили дополнительную модель (под названием «энкодер»), которая предсказывает параметры точек напрямую по входным изображениям, минуя процесс оптимизации, сократив время создания 3D-модели примерно в десять раз.

Как пояснили разработчики, проделанная работа — это еще один шаг в направлении быстрого создания 3D-моделей объектов, сцен и людей. Основная проблема на сегодняшний день в том, что создание таких высококачественных «аватаров» — долгий процесс. Если хочется сделать массовый продукт, как, например, 3D-переговорные, необходимо придумать простую технологию, когда человек сможет просто сделать набор фотографий или короткое видео, запустить программу и через разумное время (порядка несколько минут) получить хорошую 3D-модель себя.

моделирование

Фото: ТАСС/Артем Геодакян

— Проблема заключается в том, что нынешние решения — это часто палка о двух концах. С одной стороны, модели, дающие хорошее качество, могут быть вычислительно затратны и требовать много часов для расчетов. С другой стороны, быстрые модели, не требующие оптимизации, могут выдавать плохое качество, — отметил Руслан Рахимов.

В целом версии 3D-переговорных, которые есть на рынке, представляют собой некое подобие видеоигры с плохой графикой. Компании и исследователи движутся в направлении того, чтобы можно было получить фотореалистичные модели за разумное время, — ожидать эту технологию можно в ближайшие десять лет, уверены разработчики.

Нейронные сети идеально подходят для реконструкции объектов, в том числе людей или помещений, уверен научный сотрудник кафедры математического обеспечения и применения ЭВМ СПбГЭТУ «ЛЭТИ» Антон Филатов.

— Думаю, что в будущем подобные исследования помогут приблизиться не только к созданию и применению 3D-переговорных, но это также позволит воплотить в жизнь, например, удаленный 3D-осмотр врачами тела пациента, — рассказал он.

моделирование

Фото: Global Look Press/Bryan Smith

Такие модели интересны как некоторая геймификация процесса работы, где люди могут делать свои аватары, но на данном этапе они не дадут нового пользовательского опыта для улучшения рабочих процессов, уверен старший научный сотрудник кафедры автоматики процессов управления «ЛЭТИ» Вячеслав Гульванский.

— Хотя при развитии смежных областей, возможно, это будет необходимостью, а не дополнительной областью. Такие модели, мне кажется, будут интересны в образовательных целях как голограммы, где человек может показывать, как взаимодействовать с предметом, например, при спортивных упражнениях и обучении в технологических процессах, — уверен специалист.

Помимо переговорок, новый способ обработки «аватаров» может найти применение в телемедицине, сфере безопасности, производстве и других областях, где специалисты сейчас оценивают обстановку по видео или 2D-изображениям, уверены разработчики.

Мария Недюк

Источник