用可扩展的增强学习来部署大规模控制系统
用可扩展的增强学习来部署大规模控制系统
论文标题为Efficient and scalable reinforcement learning
for large-scale network control,发表在2024年7月的Nature Machine Intelligence子刊上。
作者来自北京大学。
本章首先提出了了一个概念,是如何部署一个可扩展的decision-making策略来构造一个大规模控制系统,其关键在于设计一个去中心化的决策优化策略(decentralized policy optimization network)以减少每一个agent之间的数据交互。传统的中心化学习(centralized learning)需要每一个agent都产生一个全局性的观测,然后将这些观测上传至服务器,服务器再根据观测针对每一个agent产生策略。这样做的缺陷是,算法的复杂度极其庞大,很容易就触碰到IO墙,以至于无法满足scalable的需求。所谓scalable decision-making即是将神经网络分布在边缘端,之后让这些边缘端的AI自主与外界进行交互并于其余的agent进行合作。所以另一种学习模式,称为independent learning,每个agent通过增强学习自己的观测来做出决策,但这样的学习由于没能考虑到其他agents,其决策能力较差,所谓是一叶障目,不见泰山,并且,它的学习过程也是不稳定的。
以控制交通灯为例,左图展示的中心化的控制方案将带来大规模的通信操作,这会增加信号干扰的可能性并增加计算复杂度。右图则是去中心化的控制方案,agents做出的动作只依赖于自己以及一个邻域内的其他agents的观测值。这样的方案有助于处理agents的异构问题或者包含复杂拓扑的网络。
Multi-agent reinforcement learning (MARL)应用的场景包括,自动驾驶,无线通讯,多玩家游戏,电源系统与城市交通。论文强调了开发有效的通信模式和样本高效方法的重要性。这包括通过局部通信和利用模型预测控制来减少通信成本、功耗和计算复杂性。
使用Model-based methods可以实现比传统的控制方法更高的sample efficiency。然而现目前的MARL方法存在以下的局限性:1. 模型学习依赖于一个全局性的评判标准,对边缘设备的通信能力提出了很高的要求。2. 对Multi-agent learning的理论分析与边界估计(bounded estimation)十分匮乏。3. model learning与policy learning二者是分立的。
本文提出的方法如下
- $\xi$-dependent networked Markov decision processes (MDP)
参数$\xi$描述了系统动态中局部动作和状态对全局状态影响的程度。在一个完全独立的系统中,一个智能体的动作和状态只影响其直接邻居,而在ξ-依赖系统中,这种影响可能会传播得更远,但受到一定的限制(由ξ参数控制)。在这种模型下,每个智能体根据自己的局部观测来学习一个局部策略,目标是最大化整个系统的累积奖励。由于智能体之间存在通信限制,因此它们必须在有限的信息交换下进行协调。为了减轻系统的累积误差,该文使用了一种branching strategy将一部分的long-horizon rollouts替换为了许多short-horizon rollouts。
这里的long-horizon rollouts(长视野滚动预测)指的是使用模型从一个初始状态出发,进行一系列时间步的预测,直到达到某个终止条件,如达到某个特定的时间长度或者达到某个目标状态。由于在预测过程中每一步都可能引入一定的误差,随着预测步数的增加,这些误差可能会累积,导致长期预测的准确性下降。长视野滚动预测常用于评估一个策略的长期性能,或者在模型基强化学习中用于生成训练数据,帮助优化策略。相比于只预测下一步或者短期内的未来状态,长视野滚动预测通常需要更多的计算资源,因为它需要连续模拟多个时间步。
文中采用的验证算法的场景有:
- 协同自适应巡航控制 cooperative adaptive cruise control (CACC)在自动驾驶车辆控制的情境下,CACC 系统能够通过车辆之间的通信协调速度和车距,以提高道路安全性和交通流量。
- 连接自动驾驶车辆控制Connected Autonomous Vehicle Control,类似于 CACC,但可能涉及更复杂的交通场景和车辆交互,以测试算法在更广泛的交通网络中的性能。
- 自适应交通信号控制(Adaptive Traffic Signal Control, ATSC):包括使用真实地图数据构建的摩纳哥和纽约的交通网络。ATSC 系统通过优化交通信号灯的时序来减少交通拥堵和提高交通效率。
- IEEE 电力网格(IEEE Power Grid):一个标准的测试平台,用于评估电力系统中的控制策略,如电压和频率的调节。
- 基于真实电力数据构建的电力系统(Real Power Systems):使用葡萄牙实时电力消耗数据构建的电力系统模型,用于评估算法在实际电力系统操作中的性能。
- 疫情网络(Pandemic Networks):由流行病学家基于真实的流行病动态、COVID-19 防控政策和瑞典政府的感染状态数据构建的模型,用于评估在公共卫生危机中不同控制策略的效果。
这些场景都拥有高达199到436个agents数目。