Исследование и разработка алгоритмов генерации вознаграждения в задачах обучения с подкреплением на основе модели мира

24.12.2025

В работе рассматривается проблема генерации вознаграждения с использованием обучаемой модели мира в задачах обучения с подкреплением. Выделены основные трудности, связанные с разреженностью сигналов вознаграждения и необходимостью балансирования противоречивых сигналов при обучении различных аспектов поведения агента. Предложен общий подход декомпозиции, направленный на повышение эффективности исследования и безопасности обучения. Этот подход включает декомпозицию по вознаграждению с разделением единственного общего скалярного сигнала на несколько специализированных: достижения цели, исследования и избегания опасностей. Кроме того, подход включает временную, целевую и стратегическую декомпозиции, позволяющие выделить соответственно набор умений (абстрактные действия), набор целей и набор специализированных стратегий поведения. В рамках обозначенного подхода разработаны три метода обучения искусственного агента с использованием глубоких нейронных сетей и один алгоритм генерации исследовательского сигнала на основе модели мира, обучающейся по локальным правилам. Первый метод формирует множество умений, опираясь на концепцию влияния действий агента на состояние среды. Полученные умения показали свою эффективность, как абстрактные действия, в проведенных экспериментах. Второй метод формирует множество целей и обучает две стратегии, исследования и достижения, применяемые последовательно, экспериментальное сравнение с другими методами показывает повышение эффективности обучения и исследования среды агентом. Третий метод, направленный на обучение безопасной стратегии, вводит два модуля поведения, компенсирующих ошибки друг друга при принятии решений, а также разделяет сигналы вознаграждения для достижения целей и избегания опасных взаимодействий. Этот метод показывает результаты, существенно превышающие показатели эффективности существующих подходов. Разработанный алгоритм генерации исследовательского сигнала использует только локальные правила обучения, тем самым обеспечивает дополнительное вознаграждение для агента без применения глубоких нейронных сетей.

ГРНТИ

28.23.25 Модели и системы обучения

Ключевые слова

функция вознаграждения

обучение с подкреплением

модель мира

безопасная стратегия

исследование среды

Детали

Автор

Латышев Артем Константинович

Вид

Кандидатская

Целевое степень

Кандидат технических наук

Дата защиты

15.12.2025

Организация защиты

ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ (НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ)"

Организация автора

Похожие документы

Разработка методов и алгоритмов представления информации в обучении с подкреплением с использованием биологических принципов

0.905

Диссертация

Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических сред

0.902

Диссертация

Реализация отдельных компонент механизма обучения с подкреплением, основанного на моделях, в импульсных нейронных сетях

0.901

НИОКТР

Разработка и верификация алгоритмов и дополнительных математических моделей автономного обучения с подкреплением