ИКРБС
№ 225021009590-7Отчет о научно-исследовательской работе: РАЗРАБОТКА МЕТОДОВ АНАЛИЗА ТОНАЛЬНОСТИ РУССКОЯЗЫЧНЫХ ПУБЛИЦИСТИЧЕСКИХ ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМ СИНТАКСИЧЕСКОЙ СТРУКТУРЫ ПРЕДЛОЖЕНИЙ (заключительный)
30.12.2024
Цель проекта — разработка методов автоматического определения тональности публицистических текстов на русском языке (новости, блоги, аналитические статьи) на уровне предложений и отдельных аспектов, а также выявления иронии и сарказма в изолированных предложениях.
Разработан метод определения тональности, основанный на рекурсивном применении подходящих семантических правил к составным частям предложения, представленным в виде дерева синтаксических единиц. Наилучшее достигнутое значение F-меры для данного метода — 0.80.
Также разработаны методы определения тональности по отношению к объектам — именованным сущностям и к аспектам социально-экономической жизни. Оба разработанных метода определяют тональность с помощью ансамблевых классификаторов, объединяющих нейросетевые модели на основе BERT и созданные в рамках проекта алгоритмы определения тональности, основанные на семантических правилах. Наилучшие достигнутые значения F-меры для указанных алгоритмов составили 0.81 и 0.79 соответственно.
Для определения иронии и сарказма использовались нейронная сеть RuBERT для языкового моделирования и Bi-LSTM в совокупности с расширением корпуса входных данных с использованием лингвистического ресурса Wiktionary. В данном эксперименте эмбеддинги RuBERT не только подавались на вход Bi-LSTM, но и конкатенировались с результатами Bi-LSTM перед передачей в полносвязный слой. Для повышения качества обнаружения иронии и сарказма с помощью добавления вектора, содержащего информацию о встречающихся в предложении языковых средствах, к вектору эмбеддингов предложения. F-мера определения иронии и сарказма с помощью нейросетевой модели, основанной на архитектуре RoBERTa с добавлением Bi-LSTM и слоя внимания, составила 0.86.
Все разработанные методы обладают существенной новизной. Достигнутые значения метрик существенно превышают качество ранее существовавших для русского языка методов решения рассмотренных задач, что позволяет использовать разработанные методы на практике.
ГРНТИ
16.31.21 Автоматическая обработка текста. Автоматический перевод. Автоматическое распознавание речи
Ключевые слова
ОБРАБОТКА ДАННЫХ НА ЕСТЕСТВЕННОМ ЯЗЫКЕ
КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА
МАШИННОЕ ОБУЧЕНИЕ
ИСКУССТВЕННЫЙ ИНТЕЛЛЕКТ
АНАЛИЗ ТОНАЛЬНОСТИ
ОПРЕДЕЛЕНИЕ ИРОНИИ
Детали
НИОКТР
Заказчик
Российский научный фонд
Исполнитель
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "ЯРОСЛАВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМ. П.Г. ДЕМИДОВА"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 3 000 000 ₽
Похожие документы
Разработка методов анализа тональности русскоязычных публицистических текстов с использованием синтаксической структуры предложений.
0.915
НИОКТР
Исследование и разработка методов автоматического анализа слабоструктурированной информации
(промежуточный)
Этап 1
0.902
ИКРБС
Исследование и разработка инструментов автоматического анализа русскоязычных текстов для задачи извлечения аспектных терминов
0.900
ИКРБС
Отчет о выполнении НИОКР по теме: "Интегрум – модуль определение тональности высказывания в неструктурированных текстовых данных" )заключительный)
0.895
ИКРБС
Исследования, разработка и математическое моделирование. Исследование существующих методов семантического анализа текстовой информации на основе выделенных наборов данных
0.894
ИКРБС
Кросс-культурный тональный анализ пользовательских текстов в сети Интернет (этап 2, заключительный)
0.894
ИКРБС
Отчет о выполнении НИОКР по теме: "Модуль определения тональности высказывания в неструктурированных текстовых данных." (договор № 2ГРЦЭИИС12-C12-D7/71700 от 19.12.2021) Этап № 1 "Разработка кода для обеспечения работы преобразования текста в набор векторов. Подготовка корпусов текста для разметки. Разработка кода для создания векторов по каждому слову в тексте. Разработка программной документации модуля." (промежуточный)
0.891
ИКРБС
«Разработка и тестирование прототипа платформы для поиска актуального тематического новостного контента в Интернет с применением технологии искусственного интеллекта.» (договор №129ГС1ИИС12-D7/76683 от 14.06.2022).
0.891
ИКРБС
Итоговый отчёт по проекту № 19-01-00006 А “Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов” Российского фонда фундаментальных исследований.
0.890
ИКРБС
Эталонное тестирование языковых моделей на задачах понимания естественного языка
0.889
Диссертация