Разработка программного компонента «Управление базой знаний» и обучение нейросетевой модели распознавания русского языка

27.01.2023

Отчет 33 страницы, 9 иллюстраций, 3 таблицы, 6 использованных источников. ОМНИКАНАЛЬНАЯ СИСТЕМА, КОММУНИКАЦИИ, ЧАТ-РОБОТ, РАСПОЗНАВАНИЕ, СИНТЕЗ РЕЧИ, RPA-СИСТЕМЫ, СЦЕНАРИИ, НЕЙРОННЫЕ СЕТИ, КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА, КОМАНДЫ. Целью НИОКР является адаптация и развитие открытых технологий анализа и понимания текстов на естественном языке, основанных на нейронных сетях и алгоритмах глубокого и трансфертного обучения на большом корпусе русского языка, и комбинационном их применении с целью выявления смысла фраз для использования в роботизированных речевых комплексах. Система предназначена для - построения вербальных голосовых и чат-роботов для автоматических коммуникаций (ASR и TTS) с редактором сценариев простых и сложных иерархических диалогов и действий для RPA-систем. - интеллектуальной классификации текстов, экстракция фактов и именованных сущностей из текста для последующего формирования содержательного ответа роботизированной системы. Разработка направлена на создание нейросетевых интересов для эффективного и полного распознавания смысла фраз на русском языке. Актуальность данного направления характеризуется большим количеством поисковых запросов и обилием статей, посвящённых тематике автоматизированного анализа и понимания текстов, подавляющее число которых на английском языке, что свидетельствует об определенном вакууме в таких исследованиях на русском языке. Значимость этой разработки крайне важна для создания вербальных (т.е. речевых) интеллектуальных интерфейсов человек-машина. Уже сейчас существует много голосовых роботов, работающих по поиску ключевых слов или словосочетаний, или даже использующие модели машинного обучения, показывающие посредственные результаты. В процессе выполнения 1-го этапа НИОКР проведены следующие работы: Поиск/разработка массивов данных для проводимых исследований. Подбор математического аппарата для решения задач классификации текстов на примерах массивов данных. Проектирование архитектуры программного продукта. Разработка протокола обмена данными между программным продуктом и внешними системами для автоматизации фоновых бизнес- процессов. Разработка программного компонента «Управление базой знаний». Разработка программы и методики тестирования программного компонента «Управление базой знаний». Тестирование программного компонента «Управление базой знаний». Обучение нейросетевой модели распознавания русского языка. Разработка схем алгоритмов. Разработаны схемы алгоритмов программного компонента «Управление базой знаний». Разработаны схемы алгоритмов программного компонента для обмена данными между программным продуктом и внешними системами. Разработаны программа и методика испытаний программного компонента «Управление базой знаний». Произведены испытания программного компонента «Управление базой знаний». В работе на 1-ом этапе применялся эмбеддинг - нумерация слов в некотором достаточно обширном словаре и установкой значения единицы в длинном векторе размерности, равной числу слов в словаре. Используемый метод построения эмбеддингов - унитарное кодирование, называемое в современной англоязычной литературе – one-hot encoding. В качестве датасетов были взяты статьи русскоязычной википедии и корпусы русского языка, а в качестве нейросетевых архитектур выбраны сверточных нейронные сети (CNN), ELMO и BERT. Результаты работы обученных нейросетей проверялись на датасетах по мультиклассовой классификации коротких текстов с помощью алгоритма kNN. В качестве среды разработки серверного приложения для управления базами знаний выбрана платформа .NET Core, позволяющая работать в среде операционных систем Windows и Linux. Клиентский код будет реализован на HTML/JavaScript. Общение между клиентом и сервером, а также между сервером и контейнером машинного обучения (ML) будет идти в соответствии с принципами построения сервисно-ориентированной архитектуры (SOA) по протоколу HTTPs. На 1-ом этапе НИОКР получены следующие результаты: 1. Найдены массивы данных для проводимых исследований. Определен минимальный набор атрибутов текстовых датасетов. 2. Подобран математическый аппарат для решения задач классификации текстов на примерах массивов данных. 3. Спроектирована архитектура программного продукта. 4. Разработан протокол обмена данными между программным продуктом и внешними системами для автоматизации фоновых бизнес- процессов. 5. Разработан программный компонент «Управление базой знаний». 6. Разработаны программы и методики тестирования программного компонента «Управление базой знаний». 7. Протестирован программный компонент «Управление базой знаний». 8. Проведено обучение нейросетевой модели распознавания русского языка. 9. Разработаны схемы алгоритмов. Разработаны следующие документы: Схемы алгоритмов программного компонента «Управление базой знаний» в соответствии с ГОСТ 19.701-90. Схемы алгоритмов программного компонента для обмена данными между программным продуктом и внешними системами в соответствии с ГОСТ 19.701-90. Программа и методика испытаний программного компонента «Управление базой знаний» в соответствии с ГОСТ 19.301-79. Протокол испытаний программного компонента «Управление базой знаний».

ГРНТИ

20.53.19 Средства обработки и поиска информации

Ключевые слова

команды

компьютерная лингвистика

нейронные сети

сценарии

RPA-системы

синтез речи

распознавание

чат-робот

коммуникации