РИД
№ 622123000198-4Интегральная система распознавания аудиовизуальной речи с использованием глубоких нейронных сетей
30.12.2022
Программное обеспечение предназначено для обработки аудиовизуальных речевых видеоданных. Максимальная частота кадров – 60 кадров в секунду. Поддерживаемая цветность – 24 бита на пиксель. Программное обеспечение работает на x64-совместимых компьютерах под управлением 64-разрядных версий операционных систем (ОС) Microsoft Windows 8 и выше, а также под управлением Ubuntu 18.04 и выше.
Программное обеспечение выполняет следующие функции:
- извлечение видеокадров из видеофайлов сессий записи;
- извлечение области губ;
- получение временных меток голосовой активности;
- разбиение и разметка аудиовизуальных данных на основе полученной информации;
- формирования обучающей, валидационной и тестовой выборок;
- обучение моделей аудиовизуального распознавания.
ГРНТИ
28.23.29 Программная реализация интеллектуальных систем
28.23.15 Распознавание образов. Обработка изображений
16.31.21 Автоматическая обработка текста. Автоматический перевод. Автоматическое распознавание речи
Ключевые слова
Автоматическое распознавание аудиовизуальной речи
Детали
Тип РИД
Программа для ЭВМ
Сферы применения
Цифровая обработка изображений, автоматическое распознавание визуальной речи, машинное обучение, нейронные сети.
Ожидается
Исполнитель
Исполнители
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ "САНКТ-ПЕТЕРБУРГСКИЙ ФЕДЕРАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЦЕНТР РОССИЙСКОЙ АКАДЕМИИ НАУК"
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ НАУКИ "САНКТ-ПЕТЕРБУРГСКИЙ ФЕДЕРАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЦЕНТР РОССИЙСКОЙ АКАДЕМИИ НАУК"
Похожие документы
Интегральная система распознавания эмоционально окрашенной речи на основе обработки аудиовизуальной информации
0.950
РИД
Программное обеспечение для обработки, сбора метаинформации и разметки эмоциональных речевых видеоданных
0.941
РИД
Интеллектуальная система автоматического двухстороннего сурдоперевода на основе распознавания и синтеза аудиовизуальной и жестовой речи
0.909
РИД
Программная система для автоматического распознавания речи на основе моделей с использованием коннекционной временной классификации
0.905
РИД
Программное обеспечение интеллектуального анализа и распознавания элементов русского жестового языка на основе многомодальных видеоданных
0.902
РИД
Программное ядро нейросетевого анализа текстовой информации в видеопотоке
0.896
РИД
Модуль распознавания выделенных состояний внимания на базе нейронных сетей
0.895
РИД
Система аудиовизуального распознавания русской речи на базе микрофона и высокоскоростной видеокамеры (AVSpeechRecognition)
0.893
РИД
Система распознавания речи
0.890
РИД
Программная библиотека для распознавания лиц на видеоизображениях
0.890
РИД