Иерархическое обучение с подкреплением в задаче приобретения концептуальных процедурных знаний когнитивными агентами

13.08.2018

Обучение с подкреплением является одним из разделов машинного обучения, в котором в явном виде присутствует взаимодействие интеллектуального агента (робота) со средой и учитывается обратная связь, возникающая при совершении действий агентом. Принятая в обучении с подкреплением постановка задачи, объединяющая приобретение знаний, планирование и применение плана, наиболее естественна в области когнитивной робототехники, где предполагается, что робот обучается в процессе взаимодействия с внешней средой. Однако, классические методы решения задачи обучения с подкреплением малоэффективны при большой размерности пространства состояний внешней среды и при отложенной обратной связи, поступающей от среды с задержкой. В этом случае применяются две модификации классических методов: приближенные подходы, в которых в качестве универсальных аппроксиматоров могут использоваться, например, глубокие нейронные сети (так называемое глубокое обучение с подкреплением) и иерархическое обучение с подкреплением, в котором допускается образование более сложных операций, мета-действий или навыков, на основе элементарных изначально доступных операций. В настоящем проекте предлагается объединить эти подходы для разработки нового метода иерархического обучения с подкреплением, обладающего рядом ключевых особенностей: а) использование понятия внутреннего пространства состояний, действия агента в котором приводят к обновлению иерархии операций, б) чередование процедур абстрагирования действий и абстрагирования состояний внешней среды в процессе обучения, в) использование глубоких нейронных сетей и кортикоморфных алгоритмов по приближению функций оценок качества состояний и планов (стратегий). Новый метод, как ожидается, продемонстрирует большую эффективность в задачах высокой размерности и отложенным подкреплением от среды по сравнению с имеющимися мировыми аналогами, а также позволит эффективно реализовать перенос знаний на новые задачи из того же класса и увеличить мощность класса задач, для которых возможно применение переноса знаний.Разработанный метод предполагается использовать для решения так называемой проблемы символизации или привязки символов, актуальной в робототехнике. Эта проблема заключается в том, что символы, которыми оперируют классические методы искусственного интеллекта (например, при планировании), не связаны с сенсорными данными, только по которым робототехническая система может судить о текущем состоянии внешней среды. Иными словами, семантика концептуальных знаний агента не связана с получаемой извне информацией. Для решения этой проблемы будут применены методы так называемой нейросимвольной обработки информации. В качестве данных о внешней среде предполагается использовать данные с сенсоров, следящих как за внешним окружением, так и за внутренними параметрами робота (агента).

ГРНТИ

28.23.25 Модели и системы обучения

Ключевые слова

ИЕРАРХИЧЕСКОЕ ОБУЧЕНИЕ С ПОДКРЕПЛЕНИЕМ

КОГНИТИВНЫЕ АГЕНТЫ

ПРОБЛЕМА СИМВОЛИЗАЦИИ

ОБУЧЕНИЕ ДЕЙСТВИЯМ

ТЕОРИЯ ДЕЯТЕЛЬНОСТИ

Детали

Начало

03.08.2018

Окончание