ИКРБС
№ 223121500018-9

Сбор и разметка крупного набора данных. Проведение экспериментов с обучением нейронной сети на собранном датасете и открытых датасетах для улучшения качества компоненты выделения ключевой информации и суммаризации. Проведение экспериментов с обучением нейронной сети на собранном датасете и открытых датасетах для улучшения качества алгоритмов диаризации и распознавания речи. Проведение функциональных испытаний качества работы продукта и его соответствия необходимым техническим характеристикам. (промежуточный)

13.12.2023

Целью работы является разработка прототипа ИТ-сервиса для автоматизации составления протоколов совещаний, встреч и звонков методами искусственного интеллекта. Решение, создаваемое в рамках 1 этапа проекта, возможно разделить на 4 этапа, каждый из которых имитирует когнитивные функции человека. 1. Диаризация (разделение звуковой дорожки по отдельным спикерам). На этом этапе имитируется способность человека различать голоса других людей. 2. Распознавание речи. Имитируется способность человека распознавать речь. 3. Выделение ключевой информации. Имитируется способность человека оценивать важность текстовой информации как относительно общей повестки встречи, так и для него лично. 4. Суммаризация и обесшумливание текста. Имитируется способность человека выделить общий смысл из предложенного текста, а также отличать междометия и прочий информационный шум от значимых слов. Результаты проведенной работы: Собран начальный датасет из более чем 100 часов видеозаписей. Для удобства разметки все они были разбиты на части по 5 минут. Проведен промпт-инжиниринг для определения наиболее эффективного состава запроса к нейросети на расшифровку аудиодорожек текстом. Размеченные данные составили более 20 тысяч отрезков видео по 5 минут, разделенных по спикерам и тематикам. При разметке полезным инструментом оказался Telegram-бот, распределяющий отрезки по разметчикам. Все работы проводились силами сотрудников нашей компании, так как привлечение аутсорсеров выявило низкое качество их труда. В качестве языковой модели выбрана Mistral 7B, которая позволила всей системе достичь необходимых метрик вместе с работой по улучшению качества транскрипции и диаризации. В качестве результата данного этапа была получена большая языковая модель с 7 млрд. параметров, которая умещается в 40 Гб VRAM при запуске. При этом точность алгоритма на валидационной части получилась равной 80,7% при полноте в 91,4%. Кроме этого, мы получили апробированный пайплайн для дообучения данной модели под задачи конкретного заказчика. В качестве базовой архитектуры для распознавания речи была выбрана модель Whisper, а для диаризации лучше всего себя показала архитектура NeMo. Оценка качества моделей производилась путем подсчета метрик WER и DER на отложенных видео. Полученные алгоритмы были встроены отдельными модулями в программный комплекс RECAP и интегрированы с моделью выделения ключевой информации. В работе удалось улучшить показатель DER с 23.1% до 6.3% на тестовой выборке онлайн-созвонов. Проведены функциональные испытания продукта, которые выявили высокое качество распознавания во всех случаях, включая сильно зашумленные записи и многоголосые беседы. Алгоритм корректно работает на всех заявленных входных форматах видео и аудио, при этом выделены предпочтительные форматы, дающие наиболее высокое качество, и способ фильтрации с помощью ffmpeg для снижения доли ошибок в зашумленных записях. Были выявлены и исправлены ошибки автоматической вставки фантомного спикера и нежелательных слов. Запланированный объем работ по данному этапу выполнен полностью, все принципиальные технологические вопросы в рамках проекта были отработаны.
ГРНТИ
28.23.24 Модели восприятия информации в интеллектуальных системах
Ключевые слова
автоматизация бизнес-процессов
minutes of meeting
краткое содержание встреч
распознавание речи
Детали

НИОКТР
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Исполнитель
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ЭР СИ ПИ МИТИНГС ТЕХ"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 2 000 000 ₽
Похожие документы
Этап №1"Разработка и техническая реализация (программный код и интерфейс) прототипа программного комплекса на основе нейронных сетей для анализа данных, полученных в результате использования систем отслеживания звонков и распознавания речи. Распознавание речи для создания первичного набора данных." (промежуточный)
0.937
ИКРБС
Разработка и тестирование алгоритма транскрибации с точностью распознавания речи WER не более 2.5% и CER не более 2.0%. Разработка и обучение модели автоматической суммаризации с точностью ROUGE-1 не менее 0.6%. Интеграция с корпоративными системами, включая Яндекс Календарь и ВКС Контур.Толк, для автоматизации записи и управления встречами. Разработка архитектуры и алгоритмов для реализации семантического поиска и создания базы знаний. (Промежуточный)
0.935
ИКРБС
Создание алгоритма преобразования устной речи в текст на базе открытых технологий и валидация результатов. Создание алгоритма компрессии текста на базе технологии Bart или аналогов и валидация результатов. Объединение разработанных алгоритмов (преобразования устной речи в текст и компрессии текста) в алгоритм обработки устной речи. Создания ядра приложения. Разработка API для получения поточных аудиозаписей участников конференций Zoom и других ВКС. Разработка веб-приложения прототипа для управления процессом организации и настройки проведения онлайн конференций с использованием разрабатываемого приложения. Тестирование обучающих выборок для распознавания речи с акцентом или дефектом речи. (Промежуточный)
0.933
ИКРБС
Разработка и тестирование прототипа модулей извлечения поручений и вопросно-ответного поиска для программного обеспечения по транскрибации аудио- и видеозаписей профессиональных коммуникаций в рамках систем видеоконференцсвязи (договор №186ГС2ИИС12-D7/64243 от 23.12.2022) (заключительный)
0.929
ИКРБС
Разработка и тестирование прототипа ИИ-ассистента для автоматизации транскрибации встреч, создания саммари, назначения задач и поиска информации по базе знаний (заключительный)
0.927
ИКРБС
Разработка и тестирование прототипа программного комплекса на основе нейронных сетей для анализа данных, полученных в результате использования систем отслеживания звонков и распознавания речи. Заключительный.
0.921
ИКРБС
ОТЧЕТ о выполнении НИОКР по теме: "Разработка и испытание прототипа сервиса гиперперсонализированного синтеза речи с обучением модели психометрического профилирования по речевым признакам и модели вариативного нейросетевого синтеза речи под психометрический профиль." (договор №41ГС1ИИС12-D7/71344 от 17.12.2021) Этап №1"Поиск, сбор и очистка аудиоданных датасета голосов звучащей речи. Перекрестная разметка датасета звучащей речи по психометрическим профилям с контролем уровня согласованности. Разведочный анализ датасета по извлеченным характеристикам речи, проверка адекватности распределения каждого из признаков, корректировка и фильтрация датасета. Обучение нейросетевой модели на задаче разделения речи по психометрическим профилям. Обучение модели синтеза речи с исследованием оптимальной нейросетевой архитектуры с использованием предобученного энкодера." (промежуточный)
0.920
ИКРБС
Разработка и тестирование прототипа программного комплекса для автоматического создания персонализированного письменного протокола различной компрессии речи участников совещаний с использованием ИИ (заключительный)
0.920
ИКРБС
"Разработка и тестирование прототипа веб-приложения с инструментами речевой аналитики и оценкой эффективности переговоров" (договор №10ГС1ИИС12-D7/71352 от 30.11.2021) Этап №1"Сбор базы данных записей переговоров с сегментацией на реплики и фразы. Анализ реплик по строгим разработанным алгоритмам. Определение характеристик речи: вербальных (конкретные фразы и стоп-слова скриптов, тригеры) и невербальных (темп, тон, подача). Разработка прототипа веб-приложения с инструментами речевой аналитики и оценкой эффективности переговоров." (промежуточный)
0.920
ИКРБС
Тестовые замеры по качеству распознавания. Переработка алгоритма сегментации входных данных (фильтрование элементов квазиречи). Оптимизация обработки входного потока данных для интерпретации результатов. Разработка нейросети для работы с транскрибацией и её обучение. Построение пайплайна обработки данных (сборка всех нейросетей в конвейер). Проведение тестирования прототипа датасета для сравнения с аналогами. Разработка минимального интерфейсного решения для работы с прототипом датасета. Разработка API для обработки запросов в режиме пост-обработки и в реальном времени. Оценка качества прототипа датасета.
0.919
ИКРБС