Выявление релевантных дискурсивных признаков для решения задач анализа текстовых данных

28.10.2022

Объект исследования: методы обработки естественного языка и дискрусивного анализа, направленные на обогащение существующих нейросетевых подходов структурной лингвистической инормацией о текстах. Цель работы: оценка значимости дискурсивных признаков для предобученных языковых моделей, а также разработка новых подходов по кодированию дискурсивной информации в данные модели, которые позволят улучшить качество решения прикладных задач обработки естественного языка. Методы исследования: методы машинного обучения, в частности, глубинного обучения, теории вероятностей и статистики, дискурсивного анализа, а также анализа формальных понятий. Код реализации моделей написан на языке Python с использованием фреймворка pytorch для работы с моделями глубинного обучения, для имплементации моделей на базе архитектуры Трансформер использовалась библиотека transformers от Hugging Face, в коде также применяются библиотеки numpy и sklearn. Достигнутые результаты: 1. Предложена и обучена модель, которая учитывает дискурсивную структуру текста за счет ее кодирования во входной слой модели и дообучения с помощью дискурсивно-обогащенной задачи маскированного языкового моделирования. 2. Предложена и обучена модель, обладающая дополнительным слоем внимания, зависимого от дискурсивной структуры текста. 3. Предложен алгоритм по переводу дискурсивного дерева разбора в дискурсивный граф зависимостей, в котором можно учитывать только релевантные для решаемой задачи дискурсивные признаки. 4. Предложен метод по конструированию текстовых обоснований для объяснений и интерпретации ответов модели на основании анализа дискурсивной структуры. Научная новизна: 1. Выполнен анализ способности предобученных языковых моделей учитывать дискурсивную структуру, проанализированы существующие подходы к кодированию дискурса в языковые модели. 2. Разработан и реализован новый подход к кодированию дискурсивной структуры в предобученную языковую модель BERT (disBERT), для обучения модели предложена новая задача дискурсивно-обусловленного маскированного языкового моделирования. 3. Предложена схема перевода дискурсивного дерева разбора в граф дискурсивных зависимостей, позволяющий сохранять только информативные дискурсивные признаки. 4. Разработан и реализован подход по внедрению дискурса в механизм внимания, что позволило модели находить более релевантные фрагменты текста при решении задачи понимания прочитанного текста. 5. Предложен новый подход для интерпретации результатов работы моделей на базе архитектуры Трансформер. Разработанный метод объединяет интерпретируемые модели машинного обучения и нейросетевые модели для выявления текстовых объяснений. Внедрение: 1. Методы, разработанные в ходе проведения исследования могут быть применены для решения ряда практических задач, например, алгоритм по оценке аргументированности текстов, реализованный в модели disBERT, может быть внедрен в диалоговые системы для электронной коммерции для оценки информативности отзывов пользователей о товарах. Прототип подобной диалоговой системы был разработан в рамках выполнения данной диссертационной работы. 2. Код разработанных моделей и размеченные наборы данных выложены в открытый доступ и могут применяться исследователями для решения задач, для которых необходимо учитывание дискурса. Эффективность: применение подходов и алгоритмов, разработанных в рамках данного диссертационного исследования, показало свою эффективность при решении ряда задач обработки естественного языка. Так, модель disBERT позволяет улучшить точность предсказания дискурсивных маркеров, в среднем, почти на 8%. Разработанные дискрусивно-обогащенные модели позволили улучшить качество решения задачи оценки аргументированности текстов, а также результаты вопросно-ответных систем для сложных длинных текстовых вопросов и абзацев. Область применения: "Результаты данного диссертационного исследования могут применяться в области обработки естественного языка при решении ряда прикладных задач. К таким задачам можно отнести: 1. создание дискурсивно-обогащенных контекстуальных векторных представлений текстов различных жанров; 2.генерация текстовых объяснений при решении задач обработки естественного языка с помощью предобученных языковых моделей; 3. фильтрация пользовательских отзывов о товарах при разработке чатбота для электронной коммерции.

ГРНТИ

28.23.37 Нейронные сети

28.23.17 Логика в искусственном интеллекте

27.43.51 Применение теоретико-вероятностных и статистических методов

Ключевые слова

дискурсивный признак

архитектура Трансформер

анализ текстовых данных

Детали

Автор

Гончарова Елизавета Федоровна

Вид

Кандидатская

Целевое степень

Кандидат физико-математических наук

Дата защиты

26.09.2022

Организация защиты

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ "ВЫСШАЯ ШКОЛА ЭКОНОМИКИ"

Организация автора

Похожие документы

Разработка и верификация алгоритмов и дополнительных математических моделей генеративных моделей нового поколения на основе нейродифференциальных уравнений. Этап 3

0.894

ИКРБС

Автоматический анализ прагматики и дискурса в диалогах на повседневные темы

0.890

Диссертация

Эталонное тестирование языковых моделей на задачах понимания естественного языка

0.886

Диссертация

Эффективное доменно-ориентированное непрерывное обучение больших языковых моделей на основе доменного пост-обучения и редактирования знаний с помощью слоев с дообучаемыми адаптерами (промежуточный, этап 1)