НИОКТР
№ 125012900964-5

Автоматический анализ текстов

14.01.2025

Проект посвящен разработке методов определения семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя. Эта задача имеет большое значение для систем искусственного интеллекта в образовании. Ее решение позволит существенно расширить круг автоматически проверяемых заданий и распространить лучшие методики преподавания на неограниченное число учащихся. Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя. Особенно актуально развитие методов определения семантического сходства для текстов на русском языке, так как основные опубликованные исследования в этой области выполнены для английского. Любой национальный язык обладает особенностями, которые не позволяют напрямую переносить методы обработки текста из другого языка без потери качества. Как минимум, требуется обучение моделей на национальных наборах данных. Следует отметить отсутствие открытых корпусов текстов, размеченных по степени семантического сходства. Сбор таких корпусов является отдельной подзадачей проекта. Мы предлагаем разработку методов определения семантического сходства развернутых ответов учащихся в двух направлениях. Первое - это определение семантического сходства коротких ответов, длиной не более двух предложений, которое можно рассматривать как определение близости характеристических векторов, моделирующих текст на естественном языке. Задачей проекта является системное исследование моделей текста на основе эмбеддингов современных языковых моделей, стилометрических характеристик, комбинаций разных типов характеристик. В результате анализа можно будет определить лучшие варианты числовых параметров текста для оценки сходства ответов с эталонным и выявить закономерности и ограничения применения языковых моделей в задаче определения семантического сходства текстов. Второе направление - это оценка длинных русскоязычных текстов в виде эссе, длиной до трёх абзацев на соответствие эталонным критериям, задаваемым учителем. Метод будет основан на семантическом анализе текста, включая соответствие теме, параметры употребляемой лексики, орфографию и грамматику, связность и логичность, сложность и т.п. В его основу лягут экспертные критерии, для каждого из которых будет разработан отдельный алгоритм. В результате будет получена модель оценки текста эссе. Важной особенностью предлагаемых методов станет возможность интерпретации их результатов, с точки зрения объяснения причин той или иной оценки сходства ответа с эталонным. Модели глубокого обучения, применяемые в современных языковых моделях, представляют собой "черный ящик", скрывающий внутренние параметры принятия решения. Сложные стилометрические и лингвистические характеристики текста могут быть легко интерпретированы с точки зрения эксперта-человека. Тем же качеством обладают методы, основанные на правила, на которые будут опираться алгоритмы оценки эссе. Поэтому методы, разработанные в ходе проекта, могут служить основой формирования интеллектуальной обратной связи с учащимися.
ГРНТИ
20.19.27 Автоматизация знаковой обработки текста
Ключевые слова
моделирование текста
машинное обучение
компьютерная лингвистика
семантическое сходство текста
обработка естественного языка
искусственный интеллект
Детали

Начало
25.12.2024
Окончание
15.11.2025
№ контракта
17НП/2024
Заказчик
департамент общественных связей Ярославской области
Исполнитель
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "ЯРОСЛАВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМ. П.Г. ДЕМИДОВА"
Бюджет
Средства бюджетов субъектов Российской Федерации: 350 000 ₽
Похожие документы
Автоматический анализ текстов
1.000
НИОКТР
Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя
0.986
НИОКТР
Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя
0.986
НИОКТР
Система определения отношения целевых текстов к текстам на естественном языке
0.911
РИД
Программа для автоматического определения семантического сходства ответов на развернутые вопросы тестов при построении языкового профиля обучающегося
0.899
РИД
Итоговый отчёт по проекту № 19-01-00006 А “Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов” Российского фонда фундаментальных исследований.
0.890
ИКРБС
Исследование и разработка методов и алгоритмов оценки межъязыкового семантического подобия текстов для анализа их идеологического влияния
0.889
НИОКТР
Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов
0.886
НИОКТР
Разработка и исследование метода и алгоритмов семантического сравнения научных текстов
0.884
Диссертация
Разработка методов, моделей и алгоритмов выделения единиц знаний из тематического текстового корпуса для распознавания ситуаций смысловой близости текстов
0.883
НИОКТР