НИОКТР
№ АААА-А18-118081590026-5

Иерархическое обучение с подкреплением в задаче приобретения концептуальных процедурных знаний когнитивными агентами

13.08.2018

Обучение с подкреплением является одним из разделов машинного обучения, в котором в явном виде присутствует взаимодействие интеллектуального агента (робота) со средой и учитывается обратная связь, возникающая при совершении действий агентом. Принятая в обучении с подкреплением постановка задачи, объединяющая приобретение знаний, планирование и применение плана, наиболее естественна в области когнитивной робототехники, где предполагается, что робот обучается в процессе взаимодействия с внешней средой. Однако, классические методы решения задачи обучения с подкреплением малоэффективны при большой размерности пространства состояний внешней среды и при отложенной обратной связи, поступающей от среды с задержкой. В этом случае применяются две модификации классических методов: приближенные подходы, в которых в качестве универсальных аппроксиматоров могут использоваться, например, глубокие нейронные сети (так называемое глубокое обучение с подкреплением) и иерархическое обучение с подкреплением, в котором допускается образование более сложных операций, мета-действий или навыков, на основе элементарных изначально доступных операций. В настоящем проекте предлагается объединить эти подходы для разработки нового метода иерархического обучения с подкреплением, обладающего рядом ключевых особенностей: а) использование понятия внутреннего пространства состояний, действия агента в котором приводят к обновлению иерархии операций, б) чередование процедур абстрагирования действий и абстрагирования состояний внешней среды в процессе обучения, в) использование глубоких нейронных сетей и кортикоморфных алгоритмов по приближению функций оценок качества состояний и планов (стратегий). Новый метод, как ожидается, продемонстрирует большую эффективность в задачах высокой размерности и отложенным подкреплением от среды по сравнению с имеющимися мировыми аналогами, а также позволит эффективно реализовать перенос знаний на новые задачи из того же класса и увеличить мощность класса задач, для которых возможно применение переноса знаний.Разработанный метод предполагается использовать для решения так называемой проблемы символизации или привязки символов, актуальной в робототехнике. Эта проблема заключается в том, что символы, которыми оперируют классические методы искусственного интеллекта (например, при планировании), не связаны с сенсорными данными, только по которым робототехническая система может судить о текущем состоянии внешней среды. Иными словами, семантика концептуальных знаний агента не связана с получаемой извне информацией. Для решения этой проблемы будут применены методы так называемой нейросимвольной обработки информации. В качестве данных о внешней среде предполагается использовать данные с сенсоров, следящих как за внешним окружением, так и за внутренними параметрами робота (агента).
ГРНТИ
28.23.25 Модели и системы обучения
Ключевые слова
ИЕРАРХИЧЕСКОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ
КОГНИТИВНЫЕ АГЕНТЫ
ПРОБЛЕМА СИМВОЛИЗАЦИИ
ОБУЧЕНИЕ ДЕЙСТВИЯМ
ТЕОРИЯ ДЕЯТЕЛЬНОСТИ
Детали

Начало
03.08.2018
Окончание
30.06.2020
№ контракта
18-71-00143
Заказчик
Российский научный фонд
Исполнитель
Федеральное государственное учреждение "Федеральный исследовательский центр "Информатика и управление" Российской академии наук"
Бюджет
Средства фондов поддержки научной и (или) научно-технической деятельности: 1 500 000 ₽
Похожие документы
Обучение с подкреплением с использованием сетевых векторно-символьных представлений в задаче интеллектуальной навигации когнитивных агентов
0.909
НИОКТР
Методы и алгоритмы нейросимвольного обучения и планирования поведения когнитивных агентов
0.904
Диссертация
Исследование механизмов и построение моделей обучения, основанных на знаковых представлениях, в задаче планирования коллективного поведения
0.902
ИКРБС
Разработка методов и алгоритмов представления информации в обучении с подкреплением с использованием биологических принципов
0.885
Диссертация
Интеграция иерархических ансамблей и трансформерных архитектур в алгоритмы обучения с подкреплением
0.878
Диссертация
Исследование и разработка алгоритмов генерации вознаграждения в задачах обучения с подкреплением на основе модели мира
0.878
Диссертация
ИЕРАРХИЧЕСКОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ В ЗАДАЧЕ ПРИОБРЕТЕНИЯ КОНЦЕПТУАЛЬНЫХ ПРОЦЕДУРНЫХ ЗНАНИЙ КОГНИТИВНЫМИ АГЕНТАМИ
0.877
ИКРБС
Реализация отдельных компонент механизма обучения с подкреплением, основанного на моделях, в импульсных нейронных сетях
0.877
НИОКТР
Методы и алгоритмы формирования описания изображений на основе пространственных рассуждений с использованием семиотических методов представления знаний
0.873
НИОКТР
Обобщение, обучение и эволюция в моделях автономных когнитивных агентов
0.872
НИОКТР