Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя

05.12.2024

Проект посвящен разработке методов определения семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя. Эта задача имеет большое значение для систем искусственного интеллекта в образовании. Ее решение позволит существенно расширить круг автоматически проверяемых заданий и распространить лучшие методики преподавания на неограниченное число учащихся. Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя Особенно актуально развитие методов определения семантического сходства для текстов на русском языке, так как основные опубликованные исследования в этой области выполнены для английского. Любой национальный язык обладает особенностями, которые не позволяют напрямую переносить методы обработки текста из другого языка без потери качества. Как минимум, требуется обучение моделей на национальных наборах данных. Следует отметить отсутствие открытых корпусов текстов, размеченных по степени семантического сходства. Сбор таких корпусов является отдельной подзадачей проекта. Мы предлагаем разработку методов определения семантического сходства развернутых ответов учащихся в двух направлениях. Первое - это определение семантического сходства коротких ответов, длиной не более двух предложений, которое можно рассматривать как определение близости характеристических векторов, моделирующих текст на естественном языке. Задачей проекта является системное исследование моделеСй текста на основе эмбеддингов современных языковых моделей, стилометрических характеристик, комбинаций разных типов характеристик. В результате анализа можно будет определить лучшие варианты числовых параметров текста для оценки сходства ответов с эталонным и выявить закономерности и ограничения применения языковых моделей в задаче определения семантического сходства текстов. Второе направление - это оценка длинных русскоязычных текстов в виде эссе, длиной до трёх абзацев на соответствие эталонным критериям, задаваемым учителем. Метод будет основан на семантическом анализе текста, включая соответствие теме, параметры употребляемой лексики, орфографию и грамматику, связность и логичность, сложность и т.п. В его основу лягут экспертные критерии, для каждого из которых будет разработан отдельный алгоритм. В результате будет получена модель оценки текста эссе. Важной особенностью предлагаемых методов станет возможность интерпретации их результатов, с точки зрения объяснения причин той или иной оценки сходства ответа с эталонным. Модели глубокого обучения, применяемые в современных языковых моделях, представляют собой "черный ящик", скрывающий внутренние параметры принятия решения. Сложные стилометрические и лингвистические характеристики текста могут быть легко интерпретированы с точки зрения эксперта-человека. Тем же качеством обладают методы, основанные на правила, на которые будут опираться алгоритмы оценки эссе. Поэтому методы, разработанные в ходе проекта, могут служить основой формирования интеллектуальной обратной связи с учащимися. Практическим результатом исследований станут программные инструменты для апробации, анализа и доработки методов определения сходства текстов.

ГРНТИ

28.23.20 Формирование решений в интеллектуальной среде. Модели рассуждений

Ключевые слова

искусственный интеллект

обработка естественного языка

компьютерная лингвистика

семантическое сходство текста

моделирование текста

машинное обучение

Детали

Начало

28.12.2024