Сбор и разметка крупного набора данных. Проведение экспериментов с обучением нейронной сети на собранном датасете и открытых датасетах для улучшения качества компоненты выделения ключевой информации и суммаризации. Проведение экспериментов с обучением нейронной сети на собранном датасете и открытых датасетах для улучшения качества алгоритмов диаризации и распознавания речи. Проведение функциональных испытаний качества работы продукта и его соответствия необходимым техническим характеристикам. (промежуточный)

13.12.2023

Целью работы является разработка прототипа ИТ-сервиса для автоматизации составления протоколов совещаний, встреч и звонков методами искусственного интеллекта. Решение, создаваемое в рамках 1 этапа проекта, возможно разделить на 4 этапа, каждый из которых имитирует когнитивные функции человека. 1. Диаризация (разделение звуковой дорожки по отдельным спикерам). На этом этапе имитируется способность человека различать голоса других людей. 2. Распознавание речи. Имитируется способность человека распознавать речь. 3. Выделение ключевой информации. Имитируется способность человека оценивать важность текстовой информации как относительно общей повестки встречи, так и для него лично. 4. Суммаризация и обесшумливание текста. Имитируется способность человека выделить общий смысл из предложенного текста, а также отличать междометия и прочий информационный шум от значимых слов. Результаты проведенной работы: Собран начальный датасет из более чем 100 часов видеозаписей. Для удобства разметки все они были разбиты на части по 5 минут. Проведен промпт-инжиниринг для определения наиболее эффективного состава запроса к нейросети на расшифровку аудиодорожек текстом. Размеченные данные составили более 20 тысяч отрезков видео по 5 минут, разделенных по спикерам и тематикам. При разметке полезным инструментом оказался Telegram-бот, распределяющий отрезки по разметчикам. Все работы проводились силами сотрудников нашей компании, так как привлечение аутсорсеров выявило низкое качество их труда. В качестве языковой модели выбрана Mistral 7B, которая позволила всей системе достичь необходимых метрик вместе с работой по улучшению качества транскрипции и диаризации. В качестве результата данного этапа была получена большая языковая модель с 7 млрд. параметров, которая умещается в 40 Гб VRAM при запуске. При этом точность алгоритма на валидационной части получилась равной 80,7% при полноте в 91,4%. Кроме этого, мы получили апробированный пайплайн для дообучения данной модели под задачи конкретного заказчика. В качестве базовой архитектуры для распознавания речи была выбрана модель Whisper, а для диаризации лучше всего себя показала архитектура NeMo. Оценка качества моделей производилась путем подсчета метрик WER и DER на отложенных видео. Полученные алгоритмы были встроены отдельными модулями в программный комплекс RECAP и интегрированы с моделью выделения ключевой информации. В работе удалось улучшить показатель DER с 23.1% до 6.3% на тестовой выборке онлайн-созвонов. Проведены функциональные испытания продукта, которые выявили высокое качество распознавания во всех случаях, включая сильно зашумленные записи и многоголосые беседы. Алгоритм корректно работает на всех заявленных входных форматах видео и аудио, при этом выделены предпочтительные форматы, дающие наиболее высокое качество, и способ фильтрации с помощью ffmpeg для снижения доли ошибок в зашумленных записях. Были выявлены и исправлены ошибки автоматической вставки фантомного спикера и нежелательных слов. Запланированный объем работ по данному этапу выполнен полностью, все принципиальные технологические вопросы в рамках проекта были отработаны.

ГРНТИ

28.23.24 Модели восприятия информации в интеллектуальных системах

Ключевые слова

автоматизация бизнес-процессов

minutes of meeting

краткое содержание встреч

распознавание речи

Детали

НИОКТР

№ 123072500007-9

Заказчик

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"