Автоматический анализ текстов

14.01.2025

Проект посвящен разработке методов определения семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя. Эта задача имеет большое значение для систем искусственного интеллекта в образовании. Ее решение позволит существенно расширить круг автоматически проверяемых заданий и распространить лучшие методики преподавания на неограниченное число учащихся. Автоматическое определение семантического сходства свободно конструируемых ответов учащихся на русском языке с эталонным ответом учителя. Особенно актуально развитие методов определения семантического сходства для текстов на русском языке, так как основные опубликованные исследования в этой области выполнены для английского. Любой национальный язык обладает особенностями, которые не позволяют напрямую переносить методы обработки текста из другого языка без потери качества. Как минимум, требуется обучение моделей на национальных наборах данных. Следует отметить отсутствие открытых корпусов текстов, размеченных по степени семантического сходства. Сбор таких корпусов является отдельной подзадачей проекта. Мы предлагаем разработку методов определения семантического сходства развернутых ответов учащихся в двух направлениях. Первое - это определение семантического сходства коротких ответов, длиной не более двух предложений, которое можно рассматривать как определение близости характеристических векторов, моделирующих текст на естественном языке. Задачей проекта является системное исследование моделей текста на основе эмбеддингов современных языковых моделей, стилометрических характеристик, комбинаций разных типов характеристик. В результате анализа можно будет определить лучшие варианты числовых параметров текста для оценки сходства ответов с эталонным и выявить закономерности и ограничения применения языковых моделей в задаче определения семантического сходства текстов. Второе направление - это оценка длинных русскоязычных текстов в виде эссе, длиной до трёх абзацев на соответствие эталонным критериям, задаваемым учителем. Метод будет основан на семантическом анализе текста, включая соответствие теме, параметры употребляемой лексики, орфографию и грамматику, связность и логичность, сложность и т.п. В его основу лягут экспертные критерии, для каждого из которых будет разработан отдельный алгоритм. В результате будет получена модель оценки текста эссе. Важной особенностью предлагаемых методов станет возможность интерпретации их результатов, с точки зрения объяснения причин той или иной оценки сходства ответа с эталонным. Модели глубокого обучения, применяемые в современных языковых моделях, представляют собой "черный ящик", скрывающий внутренние параметры принятия решения. Сложные стилометрические и лингвистические характеристики текста могут быть легко интерпретированы с точки зрения эксперта-человека. Тем же качеством обладают методы, основанные на правила, на которые будут опираться алгоритмы оценки эссе. Поэтому методы, разработанные в ходе проекта, могут служить основой формирования интеллектуальной обратной связи с учащимися.

ГРНТИ

20.19.27 Автоматизация знаковой обработки текста

Ключевые слова

моделирование текста

машинное обучение

компьютерная лингвистика

семантическое сходство текста

обработка естественного языка

искусственный интеллект

Детали

Начало

25.12.2024