НИОКТР
№ 123012500095-2

Разработка и исследование метода управляемой генерации текстов по сюжетной линии

20.01.2023

Проект направлен на решение проблемы автоматической управляемой генерации текстов на естественном языке по последовательности направляющих выражений, определяющих сюжетную линию текста. Актуальность исследования обусловлена несоответствием потребности пользователей в программных средствах, позволяющих в автоматическом режиме создавать реальные или вымышленные истории, описывающие определенные факты, события или явления, и отсутствием систем, предоставляющих необходимую для этого функциональность, а также недостаточной степенью исследованности проблемы для русского языка. В проекте решается задача разработки и исследования метода автоматической управляемой генерации русскоязычного текста по заданным пользователем направляющим выражениям на основе модификации выходного вероятностного распределения авторегрессионной языковой модели с учетом семантической близости генерируемого текста и направляющего выражения в векторном пространстве автокодирующей модели. Научная новизна проекта заключается в следующем: 1) будет разработана глубокая русскоязычная нейросетевая модель SimBERT для определения степени семантического сходства двух текстов; 2) будет разработан новый метод управляемой генерации, не требующий трудоемких процедур создания обучающих корпусов и обучения языковых моделей; 3) в проекте предлагается впервые разработать метод управляемой генерации текстов для русского языка, в отличие от существующих работ, в которых исследования проводятся только для английского языка. Экспериментальное исследование разработанных модели и метода предлагается проводить с использованием как существующих текстовых корпусов для задач определения семантического сходства и управляемой генерации текстов, так и созданных в ходе выполнения проекта.
ГРНТИ
20.19.27 Автоматизация знаковой обработки текста
Ключевые слова
Управляемая генерация текста
глубокое обучение
языковые модели
GPT
BERT
Детали

Начало
12.01.2023
Окончание
31.12.2024
№ контракта
23-21-00330
Заказчик
Российский научный фонд
Исполнитель
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "ВЯТСКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 3 000 000 ₽
Похожие документы
Исследование и разработка методов автоматического анализа слабоструктурированной информации
0.887
НИОКТР
Алгоритмы автоматической генерации сценариев для целеориентированных диалоговых систем с поддержкой непрерывного обучения
0.885
ИКРБС
СБОР ДАННЫХ И ПОДГОТОВКА КОРПУСА ДАННЫХ ДЛЯ ОБУЧЕНИЯ НЕЙРОСЕТЕВОЙ МОДЕЛИ. ПРОВЕДЕНИЕ ИССЛЕДОВАНИЯ АРХИТЕКТУР ЛИНГВИСТИЧЕСКИХ И НЕЙРОСЕТЕВЫХ МОДЕЛЕЙ. РАЗРАБОТКА МОДУЛЯ ВЗАИМОДЕЙСТВИЯ С ПОЛЬЗОВАТЕЛЕМ (АУТЕНТИФИКАЦИЯ, НАВИГАЦИЯ, ЭЛЕМЕНТЫ ВЗАИМОДЕЙСТВИЯ). РАЗРАБОТКА МОДУЛЯ ГЕНЕРАЦИИ
0.884
ИКРБС
Отчет об опытно-конструкторских и технологических работах Разработка универсальной адаптивной системы разметки текстовых данных с использованием предразметки на базе нейросетевых языковых моделей и активного обучения по теме ТЕХНИЧЕСКОЕ ПРЕДЛОЖЕНИЕ (промежуточный) этап 1
0.880
ИКРБС
Разработка прототипа программного обеспечения для генерации контента на основе сокращенного текста с использованием модели нейросетевого алгоритма для абстрактного автореферирования текста
0.874
НИОКТР
Разработка и исследование метода генерации текстов с аргументацией
0.871
НИОКТР
Разработка программного компонента «Управление базой знаний» и обучение нейросетевой модели распознавания русского языка
0.870
ИКРБС
Моделирование содержания сообщения в процессе автоматической генерации текста: лингво-информационный аспект
0.870
Диссертация
Разработка прототипа эмуляции глубокого скрининга психодиагностической и профессионально-ориентационной экспертизы личности нарратора на основе продуцируемых нарратором текстовых данных или транскриптов его устной речи с использованием больших языковых моделей
0.870
НИОКТР
Исследование и разработка методов автоматического анализа слабоструктурированной информации (промежуточный) Этап 1
0.869
ИКРБС