Диссертация
№ 425122422380-3Исследование и разработка алгоритмов генерации вознаграждения в задачах обучения с подкреплением на основе модели мира
24.12.2025
В работе рассматривается проблема генерации вознаграждения с использованием обучаемой модели мира в задачах обучения с подкреплением. Выделены основные трудности, связанные с разреженностью сигналов вознаграждения и необходимостью балансирования противоречивых сигналов при обучении различных аспектов поведения агента. Предложен общий подход декомпозиции, направленный на повышение эффективности исследования и безопасности обучения. Этот подход включает декомпозицию по вознаграждению с разделением единственного общего скалярного сигнала на несколько специализированных: достижения цели, исследования и избегания опасностей. Кроме того, подход включает временную, целевую и стратегическую декомпозиции, позволяющие выделить соответственно набор умений (абстрактные действия), набор целей и набор специализированных стратегий поведения.
В рамках обозначенного подхода разработаны три метода обучения искусственного агента с использованием глубоких нейронных сетей и один алгоритм генерации исследовательского сигнала на основе модели мира, обучающейся по локальным правилам. Первый метод формирует множество умений, опираясь на концепцию влияния действий агента на состояние среды. Полученные умения показали свою эффективность, как абстрактные действия, в проведенных экспериментах. Второй метод формирует множество целей и обучает две стратегии, исследования и достижения, применяемые последовательно, экспериментальное сравнение с другими методами показывает повышение эффективности обучения и исследования среды агентом. Третий метод, направленный на обучение безопасной стратегии, вводит два модуля поведения, компенсирующих ошибки друг друга при принятии решений, а также разделяет сигналы вознаграждения для достижения целей и избегания опасных взаимодействий. Этот метод показывает результаты, существенно превышающие показатели эффективности существующих подходов. Разработанный алгоритм генерации исследовательского сигнала использует только локальные правила обучения, тем самым обеспечивает дополнительное вознаграждение для агента без применения глубоких нейронных сетей.
ГРНТИ
28.23.25 Модели и системы обучения
Ключевые слова
функция вознаграждения
обучение с подкреплением
модель мира
безопасная стратегия
исследование среды
Детали
Автор
Латышев Артем Константинович
Вид
Кандидатская
Целевое степень
Кандидат технических наук
Дата защиты
15.12.2025
Организация защиты
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ (НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ)"
Организация автора
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ "МОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ (НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ УНИВЕРСИТЕТ)"
Похожие документы
Разработка методов и алгоритмов представления информации в обучении с подкреплением с использованием биологических принципов
0.905
Диссертация
Методы мультиагентного обучения с подкреплением в условиях частичной наблюдаемости и динамических сред
0.902
Диссертация
Реализация отдельных компонент механизма обучения с подкреплением, основанного на моделях, в импульсных нейронных сетях
0.901
НИОКТР
Разработка и верификация алгоритмов и дополнительных математических моделей автономного обучения с подкреплением
0.898
ИКРБС
Разработка и верификация алгоритмов и дополнительных математических моделей прогнозирования траектории движения транспортных средств. Этап 2
0.894
ИКРБС
Интеграция иерархических ансамблей и трансформерных архитектур в алгоритмы обучения с подкреплением
0.885
Диссертация
Исследование и разработка методов обучения с подкреплением для задач навигации в визуальных и клеточных средах
0.885
Диссертация
Мультиагентные алгоритмы машрутизации на основе глубоких нейронных сетей с подкреплением и их верификация (заключительный)
0.884
ИКРБС
Изучение и развитие методов обучения с подкреплением и глубинного обучения для задач анализа и генерации текстов и изображений
0.882
ИКРБС
Разработка и верификация алгоритмов и дополнительных математических моделей оценки неопределенности в алгоритмах обучения с подкреплением
0.879
ИКРБС