Обучение по данным как основа моделирования позы и внешности людей и виртуальных аватаров

16.01.2025

Объект исследования Алгоритмы для ЭВМ, по изображению или видео человека выполняющие автозахват чело-века, т.е. автоматическое определение его позы и/или моделирование его внешности Цель работы Предложить решения задачи автозахвата человека в нескольких формулировках (сценари-ях), лучшие по сравнению с существующими решениями (точнее, быстрее, проще концеп-туально и в реализации, плавнее, требуют меньше данных для обучения и т.д.) Методы исследования, кроме используемых приборов и аппаратуры Запуск алгоритмов на открытых наборах данных; количественное и качественное сравне-ние с существующими методами по их результатам – как по опубликованным в литерату-ре, так и по полученным нами с помощью открытых реализаций этих методов. Достигнутые результаты 1. Существующий алгоритм телеприсутствия для людей и аватаров в полный рост был до-полнен возможностью отрисовки аватара с произвольных точек зрения благодаря новому алгоритму для оценки 3D-координат ключевых точек тела, лица, стоп и рук по RGB-видео с одной камеры. 2. Для систем из нескольких камер были разработаны два более точных алгоритма опреде-ления таких 3D-координат позы тела. 3. Получено латентное (т.е. неинтерпретируемое) представление, достаточно точно описы-вающее позу головы и выражение лица, но в то же время содержащее гораздо меньше ин-формации для идентификации человека. 4. С использованием этого латентного представления разработана система телеприсутствия портретного формата, которая естественным образом поддерживает произвольных людей в качестве источника позы (driver), сохраняя при этом внешность аватара. 5. Разработан алгоритм, оценивающий 3D-меш головы по нескольким или одному изобра-жению (например, селфи или картина). Новизна п. 1. Впервые разработан алгоритм определения 3D-координат ключевых точек тела, лица, стоп и кистей. п. 2. Алгоритмы значительно улучшили точность на популярных открытых данных и повы-сили устойчивость к перекрытиям. Концептуальное новшество алгоритмов относительно существующих в том, что нейросети в них обучаются целиком, напрямую предсказывая 3D-координаты. п. 3. Латентное представление описывает позу не хуже существующих представлений вро-де 3DMM или координат ключевых точек и в то же время не требует вручную размеченных данных благодаря самообучению (self-supervised learning). п. 4. Согласно количественным оценкам, система телеприсутствия лучше сохраняет внеш-ность аватара по сравнению с существующими подходами п. 5. По сравнению с наиболее релевантным из существующих методов 3D-восстановления головы, представленный требует обучения на гораздо более простых данных (100 видео со смартфона против 10.000 3D-сканов). Внедрение Алгоритмы оценки ключевых точек в 3D внедрены в демо-вариант коммерческой системы телеприсутствия (2019). Латентное представление позы, основанная на нем система телеприсутствия и алгоритм 3D-восстановления головы имеют десятки потенциальных сценариев внедрения (виртуаль-ный фитнес-тренер; видеозвонки в дополненной реальности; виртуальная примерочная; ин-терактивные музеи и т.п). Относительная эффективность предложен-ных алгоритмов подтверждается следую-щим: Алгоритм для определения 3D-позы по ви-део с одной камеры использует незначи-тельные вычислительные ресурсы (порядка 1.5 мс на кадр на ПК). Алгоритм для определения позы по несколь-ким камерам достигает гораздо большей точности, используя те же данные и тратя примерно те же вычислительные ресурсы. Латентное представление позы и основанная на нем система телеприсутствия обучаются на более простых данных, не требующих ручной разметки. Способ 3D-восстановления голов обучается на очень простых данных (100 видео со смартфона) без какой-либо разметки. Область применения Практические цифровые приложения для безопасности (например, умная охранная система для дома; домашний мониторинг пожилых людей), удобства (электронный фитнес-тренер; виртуальная примерочная; управление устройством жестами рук) и развлечений (аватары для видеозвонков и трансляций; танцевальные и спортивные симуляторы и игры).

ГРНТИ

28.23.15 Распознавание образов. Обработка изображений

Ключевые слова

трёхмерное компьютерное зрение

трёхмерная реконструкция

триангуляция

определение позы

нейронные неявные функции

Метаобучение

захват движений

дополненная реальность

глубокое обучение

Детали

Автор

Бурков Егор Андреевич

Вид

Кандидатская

Целевое степень

Кандидат физико-математических наук

Дата защиты

19.12.2024

Организация защиты

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ "ВЫСШАЯ ШКОЛА ЭКОНОМИКИ"

Организация автора

АВТОНОМНАЯ НЕКОММЕРЧЕСКАЯ ОБРАЗОВАТЕЛЬНАЯ ОРГАНИЗАЦИЯ ВЫСШЕГО ОБРАЗОВАНИЯ "СКОЛКОВСКИЙ ИНСТИТУТ НАУКИ И ТЕХНОЛОГИЙ"

Похожие документы

Методы повышения обобщающей способности моделей в задачах 3D компьютерного зрения

0.893

Диссертация

Разработка алгоритма визуальной сегментации человека на изображении для прототипа программного продукта виртуальная примерочная: фотореалистичная примерка одежды на цифровую модель пользователя полученную с помощью камеры смартфона. Разработка алгоритма оценки позы человека на изображении для прототипа программного продукта виртуальная примерочная: фотореалистичная примерка одежды на цифровую модель пользователя полученную с помощью камеры смартфона. Разработка алгоритма восстановления параметрической модели человека на основе серии фотографий для прототипа программного продукта виртуальная примерочная: фотореалистичная примерка одежды на цифровую модель пользователя полученную с помощью камеры смартфона." (промежуточный)

0.891

ИКРБС

Теоретическое и прикладное исследование сложных систем: машинное обучение, языки параллельного программирования, комплексные задачи маршрутизации и расписаний, геоинформационные системы и цифровая медицина

0.888

ИКРБС