Направления работы лаборатории
Обучение с подкреплением с гарантиями
01
Сотрудники лаборатории займутся разработкой и внедрением передовых методов обучения с подкреплением, не требующих модели среды, с гарантиями выполнения ограничений на переменные состояния (например, связанными с безопасностью) и устойчивости. В основу направления ляжет метод «Критик как функция Ляпунова» (Critic as Lyapunov Function, CALF) (TRL 3—4), успешно апробированный на мобильных роботах и в модельных экспериментах. Также планируется разработка стандартов на системы управления с применением обучения с подкреплением.
Предиктивное обучение с подкреплением
02
Ключевым подходом этого направления станет стековое обучение с подкреплением — термин, предложенный Павлом в 2017 году на международном конгрессе IFAC. Данный класс методов обеспечивает соблюдение ограничений на переменные состояния среды и ее устойчивость сродни управлению на прогнозирующих моделях (model‑predictive control, MPC). Методы уже успешно апробированы в мобильной робототехнике и опубликованы в ведущих профильных журналах. Сотрудники лаборатории займутся дальнейшим исследованием и развитием методов оптимального предиктивного управления на основе обучения с подкреплением.
Инструментарий и фреймворки для моделирования и проектирования систем ИИ
03
В лаборатории планируется дальнейшая разработка собственного программного фреймворка Regelum — аналога MATLAB-Simulink, специализированного для динамических систем и обучения с подкреплением. Фреймворк уже позволяет быстро создавать прототипы, поддерживает параллельные вычисления и интеграцию современных методов, в том числе авторских, включая CALF. Активно используется в научных и образовательных проектах в России и за рубежом (TRL 4—5).