强化学习相关知识点梳理1马尔科夫链
三个重要元素:
智能体在环境中,观察到状态S。
状态S被输入到智能体,智能体经过计算,选择动作A。
动作A使只能体进入下一个状态S,并返回奖励R给智能体。
智能体根据返回,调整自己的策略(policy)。策略一般用$\pmb{\pi}$表示。
很多时候,我们不能单纯通过R来衡量一个动作的好坏,应该把未来的奖励也纳入决策。
举例:下棋的时候,弃子动作在当前奖励R非常低,但未来有可能获得更大的胜利。
评估动作的价值,成为Q值,代表了智能体选择这个动作之后,一直到最终状态奖励综合的期望。
评估状态的价值,成为V值,代表了智能体在这个状态下,一直到最终状态奖励综合的期望。
时序差分学习(TD)TD学习的原理应该怎样理解?该部分知识来源于https://www.bilibili.com/video/BV1PB4y1q7Dv/?spm_id_from=333.337.search-card.all.click&vd_source=bd0a4d03d6844f779cc2433f3ca7b4f6
@bilibili:DragonistYJ
动作价值 ...