ИКРБС
№ 223020200950-1Разработка программного компонента «Управление базой знаний» и обучение нейросетевой модели распознавания русского языка
27.01.2023
Отчет 33 страницы, 9 иллюстраций, 3 таблицы, 6 использованных источников.
ОМНИКАНАЛЬНАЯ СИСТЕМА, КОММУНИКАЦИИ, ЧАТ-РОБОТ, РАСПОЗНАВАНИЕ, СИНТЕЗ РЕЧИ, RPA-СИСТЕМЫ, СЦЕНАРИИ, НЕЙРОННЫЕ СЕТИ, КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, КОМАНДЫ.
Целью НИОКР является адаптация и развитие открытых технологий анализа и понимания текстов на естественном языке, основанных на нейронных сетях и алгоритмах глубокого и трансфертного обучения на большом корпусе русского языка, и комбинационном их применении с целью выявления смысла фраз для использования в роботизированных речевых комплексах. Система предназначена для
- построения вербальных голосовых и чат-роботов для автоматических коммуникаций (ASR и TTS) с редактором сценариев простых и сложных иерархических диалогов и действий для RPA-систем.
- интеллектуальной классификации текстов, экстракция фактов и именованных сущностей из текста для последующего формирования содержательного ответа роботизированной системы.
Разработка направлена на создание нейросетевых интересов для эффективного и полного распознавания смысла фраз на русском языке.
Актуальность данного направления характеризуется большим количеством поисковых запросов и обилием статей, посвящённых тематике автоматизированного анализа и понимания текстов, подавляющее число которых на английском языке, что свидетельствует об определенном вакууме в таких исследованиях на русском языке.
Значимость этой разработки крайне важна для создания вербальных (т.е. речевых) интеллектуальных интерфейсов человек-машина. Уже сейчас существует много голосовых роботов, работающих по поиску ключевых слов или словосочетаний, или даже использующие модели машинного обучения, показывающие посредственные результаты.
В процессе выполнения 1-го этапа НИОКР проведены следующие работы:
Поиск/разработка массивов данных для проводимых исследований. Подбор математического аппарата для решения задач классификации текстов на примерах массивов данных. Проектирование архитектуры программного продукта. Разработка протокола обмена данными между программным продуктом и внешними системами для автоматизации фоновых бизнес- процессов. Разработка программного компонента «Управление базой знаний». Разработка программы и методики тестирования программного компонента «Управление базой знаний». Тестирование программного компонента «Управление базой знаний». Обучение нейросетевой модели распознавания русского языка. Разработка схем алгоритмов.
Разработаны схемы алгоритмов программного компонента «Управление базой знаний».
Разработаны схемы алгоритмов программного компонента для обмена данными между программным продуктом и внешними системами.
Разработаны программа и методика испытаний программного компонента «Управление базой знаний».
Произведены испытания программного компонента «Управление базой знаний».
В работе на 1-ом этапе применялся эмбеддинг - нумерация слов в некотором достаточно обширном словаре и установкой значения единицы в длинном векторе размерности, равной числу слов в словаре. Используемый метод построения эмбеддингов - унитарное кодирование, называемое в современной англоязычной литературе – one-hot encoding. В качестве датасетов были взяты статьи русскоязычной википедии и корпусы русского языка, а в качестве нейросетевых архитектур выбраны сверточных нейронные сети (CNN), ELMO и BERT. Результаты работы обученных нейросетей проверялись на датасетах по мультиклассовой классификации коротких текстов с помощью алгоритма kNN. В качестве среды разработки серверного приложения для управления базами знаний выбрана платформа .NET Core, позволяющая работать в среде операционных систем Windows и Linux. Клиентский код будет реализован на HTML/JavaScript. Общение между клиентом и сервером, а также между сервером и контейнером машинного обучения (ML) будет идти в соответствии с принципами построения сервисно-ориентированной архитектуры (SOA) по протоколу HTTPs.
На 1-ом этапе НИОКР получены следующие результаты:
1. Найдены массивы данных для проводимых исследований. Определен минимальный набор атрибутов текстовых датасетов.
2. Подобран математическый аппарат для решения задач классификации текстов на примерах массивов данных.
3. Спроектирована архитектура программного продукта.
4. Разработан протокол обмена данными между программным продуктом и внешними системами для автоматизации фоновых бизнес- процессов.
5. Разработан программный компонент «Управление базой знаний».
6. Разработаны программы и методики тестирования программного компонента «Управление базой знаний».
7. Протестирован программный компонент «Управление базой знаний».
8. Проведено обучение нейросетевой модели распознавания русского языка.
9. Разработаны схемы алгоритмов.
Разработаны следующие документы:
Схемы алгоритмов программного компонента «Управление базой знаний» в соответствии с ГОСТ 19.701-90.
Схемы алгоритмов программного компонента для обмена данными между программным продуктом и внешними системами в соответствии с ГОСТ 19.701-90.
Программа и методика испытаний программного компонента «Управление базой знаний» в соответствии с ГОСТ 19.301-79.
Протокол испытаний программного компонента «Управление базой знаний».
ГРНТИ
20.53.19 Средства обработки и поиска информации
Ключевые слова
команды
компьютерная лингвистика
нейронные сети
сценарии
RPA-системы
синтез речи
распознавание
чат-робот
коммуникации
омниканальная система
Детали
НИОКТР
Заказчик
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ "ФОНД СОДЕЙСТВИЯ РАЗВИТИЮ МАЛЫХ ФОРМ ПРЕДПРИЯТИЙ В НАУЧНО-ТЕХНИЧЕСКОЙ СФЕРЕ"
Исполнитель
ОБЩЕСТВО С ОГРАНИЧЕННОЙ ОТВЕТСТВЕННОСТЬЮ "ПРОФ ИТ"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 10 000 000 ₽; Собственные средства организаций: 4 055 000 ₽
Похожие документы
Разработка омниканальной системы разговорного искусственного интеллекта для ведения коммуникаций (заключительный)
0.976
ИКРБС
Этап №1 «Анализ существующих алгоритмов, методов и инструментов для обработки русскоязычного текста в задаче и поиска корреляций между текстом и связанными метаданными. Сбор данных по оценке профессиональных навыков кандидатов HR-специалистами по результатам нестандартизированных ответов респондентов. Разработка математических моделей и алгоритмов машинного обучения для анализа открытых ответов кандидатов и сотрудников. Формирование обучающей выборки для алгоритмов машинного обучения.» (промежуточный)
0.921
ИКРБС
Построение систем знаний и анализ данных на основе текстовой информации
0.917
ИКРБС
Разработка и тестирование алгоритмов на основе машинного обучения для семантической обработки текстов на живом языке для автоматизации аналитической деятельности
0.917
ИКРБС
ОТЧЕТ о выполнении НИОКР по теме: "Разработка усовершенствованной системы разговорного машинного интеллекта Robovoice."
(договор №686ГРНТИС5/71095 от 19.11.2021)
Этап №1 "Разработка архитектуры программного модуля дообучения нейросетей и классификации намерений.Разработка модуля дообучения нейросетей и классификации намерений, включая первичное обучение сети. Разработка методик предварительных испытаний (тестирования) модуля дообучения нейросетей и классификации намерений. Проведение предварительных испытаний (тестирования) модуля дообучения нейросетей и классификации намерений. Корректировка модуля дообучения нейросетей и классификации намерений по результатам испытаний (тестирования). Разработка программной документации для модуля дообучения нейросетей и классификации намерений. Разработка архитектуры логического модуля дозапросов блока «Диалоговый менеджер». Разработка логического модуля дозапросов блока «Диалоговый менеджер». Разработка методик предварительных испытаний (тестирования) логического модуля дозапросов блока «Диалоговый менеджер». Проведение предварительных испытаний (тестирования) модуля логического модуля дозапросов блока «Диалоговый менеджер».Корректировка логического модуля дозапросов блока «Диалоговый менеджер». Разработка программной документации для логического модуля дозапросов блока «Диалоговый менеджер»." (промежуточный)
0.916
ИКРБС
Исследования существующих технологических решений для обработки естественного языка на основе алгоритмов машинного обучения. Проектирование, разработка и испытания прототипа интеграции естественно-языкового семантического интерфейса с диалоговой платформой NLU. Анализ и доработка прототипа модуля обработки естественного языка на основе алгоритмов машинного обучения
0.915
ИКРБС
Исследования существующих технологических решений для обработки естественного языка на основе алгоритмов машинного обучения. Проектирование, разработка и испытания прототипа интеграции естественно-языкового семантического интерфейса с диалоговой платформой NLU. Анализ и доработка прототипа модуля обработки естественного языка на основе алгоритмов машинного обучения
0.915
ИКРБС
Разработка технологии и реализующего ее программного комплекса для интеллектуальной обработки текстов: понимания входящих запросов на естественном языке и смыслового анализа содержимого документов с целью автоматизации процессов управления знаниями, поиска релевантных данных для ответов и маршрутизации запросов в коммерческих или государственных организациях
0.914
ИКРБС
РАЗРАБОТКА АЛГОРИТМОВ МАШИННОГО ОБУЧЕНИЯ ОБРАБОТКИ ЕСТЕСТВЕННОГО РУССКОГО ЯЗЫКА ДЛЯ ПОИСКА И РАСПОЗНАВАНИЯ ИМЕНОВАННЫХ СУЩНОСТЕЙ
0.913
ИКРБС
ОТЧЕТ о выполнении НИОКР по теме:
"Разработка прототипа ядра для системы интеллектуального анализа текста, полученного в результате автоматизированного анализа аудио-потока и проведение испытания платформы разработки голосовых диалоговых интерфейсов"
(договор No3730ГС2/63287 от 02.12.2020)
Этап №1"Разработка структуры прототипа ядра для интеллектуального анализа текста, полученного в результате автоматизированного анализа аудио-потока. Разработка классификаторов для анализа сообщений пользователей (на базе регулярных выражений, на базе принципов дистрибутивной семантики). Разработка прототипа классификатора для обеспечения переключения между нейросетевыми и прочими алгоритмами анализа информации. Разработка прототипа модуля работы с ошибками, допускаемыми пользователями. Разработка прототипа системы автоматического тестирования диалогов." (промежуточный)
0.912
ИКРБС