НИОКТР
№ 125012800896-0

Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя

05.12.2024

Проект посвящен разработке методов определения семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя. Эта задача имеет большое значение для систем искусственного интеллекта в образовании. Ее решение позволит существенно расширить круг автоматически проверяемых заданий и распространить лучшие методики преподавания на неограниченное число учащихся. Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя Особенно актуально развитие методов определения семантического сходства для текстов на русском языке, так как основные опубликованные исследования в этой области выполнены для английского. Любой национальный язык обладает особенностями, которые не позволяют напрямую переносить методы обработки текста из другого языка без потери качества. Как минимум, требуется обучение моделей на национальных наборах данных. Следует отметить отсутствие открытых корпусов текстов, размеченных по степени семантического сходства. Сбор таких корпусов является отдельной подзадачей проекта. Мы предлагаем разработку методов определения семантического сходства развернутых ответов учащихся в двух направлениях. Первое - это определение семантического сходства коротких ответов, длиной не более двух предложений, которое можно рассматривать как определение близости характеристических векторов, моделирующих текст на естественном языке. Задачей проекта является системное исследование моделеСй текста на основе эмбеддингов современных языковых моделей, стилометрических характеристик, комбинаций разных типов характеристик. В результате анализа можно будет определить лучшие варианты числовых параметров текста для оценки сходства ответов с эталонным и выявить закономерности и ограничения применения языковых моделей в задаче определения семантического сходства текстов. Второе направление - это оценка длинных русскоязычных текстов в виде эссе, длиной до трёх абзацев на соответствие эталонным критериям, задаваемым учителем. Метод будет основан на семантическом анализе текста, включая соответствие теме, параметры употребляемой лексики, орфографию и грамматику, связность и логичность, сложность и т.п. В его основу лягут экспертные критерии, для каждого из которых будет разработан отдельный алгоритм. В результате будет получена модель оценки текста эссе. Важной особенностью предлагаемых методов станет возможность интерпретации их результатов, с точки зрения объяснения причин той или иной оценки сходства ответа с эталонным. Модели глубокого обучения, применяемые в современных языковых моделях, представляют собой "черный ящик", скрывающий внутренние параметры принятия решения. Сложные стилометрические и лингвистические характеристики текста могут быть легко интерпретированы с точки зрения эксперта-человека. Тем же качеством обладают методы, основанные на правила, на которые будут опираться алгоритмы оценки эссе. Поэтому методы, разработанные в ходе проекта, могут служить основой формирования интеллектуальной обратной связи с учащимися. Практическим результатом исследований станут программные инструменты для апробации, анализа и доработки методов определения сходства текстов.
ГРНТИ
28.23.20 Формирование решений в интеллектуальной среде. Модели рассуждений
Ключевые слова
искусственный интеллект
обработка естественного языка
компьютерная лингвистика
семантическое сходство текста
моделирование текста
машинное обучение
Детали

Начало
28.12.2024
Окончание
31.12.2026
№ контракта
25-21-00196
Заказчик
Российский научный фонд
Исполнитель
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "ЯРОСЛАВСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ИМ. П.Г. ДЕМИДОВА"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 3 000 000 ₽
Похожие документы
Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя
1.000
НИОКТР
Автоматический анализ текстов
0.986
НИОКТР
Автоматический анализ текстов
0.986
НИОКТР
Система определения отношения целевых текстов к текстам на естественном языке
0.902
РИД
Программа для автоматического определения семантического сходства ответов на развернутые вопросы тестов при построении языкового профиля обучающегося
0.891
РИД
Разработка и исследование метода и алгоритмов семантического сравнения научных текстов
0.888
Диссертация
Исследование и разработка методов и алгоритмов оценки межъязыкового семантического подобия текстов для анализа их идеологического влияния
0.887
НИОКТР
Итоговый отчёт по проекту № 19-01-00006 А “Разработка методов, моделей и алгоритмов анализа релевантности тематического текстового корпуса единице знаний для распознавания ситуаций смысловой близости текстов” Российского фонда фундаментальных исследований.
0.885
ИКРБС
Итоговый отчёт по проекту № 16-01-00004 А “Разработка методов, моделей и алгоритмов выделения единиц знаний из тематического текстового корпуса для распознавания ситуаций смысловой близости текстов” Российского фонда фундаментальных исследований.
0.880
ИКРБС
Разработка методов, моделей и алгоритмов выделения единиц знаний из тематического текстового корпуса для распознавания ситуаций смысловой близости текстов
0.879
НИОКТР