强化学习的最终目标是寻找最优策略。为了实现这一目标,我们需要明确定义什么是最优策略。
本章将介绍两个核心概念:最优状态值和贝尔曼最优性方程。
最优状态值是用来定义最优策略的基础,而贝尔曼最优性方程则是求解最优状态值和最优策略的重要工具。
在强化学习中,评估一个策略的好坏是至关重要的。本章将介绍两个核心概念:状态值和贝尔曼方程,它们是评估策略的基础工具。状态值被定义为智能体遵循给定策略时能够获得的平均奖励。状态值越大,相应的策略就越好。因此,状态值可以作为衡量策略好坏的指标。
然而,仅仅知道状态值的重要性是不够的,我们还需要知道如何分析它们。这就是贝尔曼方程发挥作用的地方。贝尔曼方程是分析状态值的重要工具,它描述了所有状态值之间的关系。通过求解贝尔曼方程,我们可以获得状态值。这个过程被称为策略评估,是强化学习中的一个基本概念。
本章将深入探讨这些概念,从简单的例子开始,逐步引入更复杂的数学表达。我们将学习如何构建贝尔曼方程,如何求解它,以及如何解释结果。此外,本章还将介绍另一个重要概念:动作值,并探讨它与状态值之间的关系。
强化学习是机器学习的一个重要分支,它研究如何通过与环境的交互来学习最优决策策略。与监督学习和无监督学习不同,强化学习的特点在于它强调学习过程中的序列决策和长期回报。
在这一章中,我们将从最基本的概念开始,逐步构建强化学习的理论框架。我们将介绍状态、动作、策略、奖励等核心概念,并最终引入马尔可夫决策过程(MDPs)这一描述强化学习问题的数学工具。为了使这些抽象的概念更加直观,我们将使用一个简单的网格世界例子来阐述这些概念。这个例子虽然简单,但它包含了强化学习中的许多关键元素,可以帮助我们理解更复杂的问题。
最近在申请Ph.D, 有幸和导师还算聊得来,老师让我先去研究一下他的官网上关于在线决策的课程,因为这对我来说是个全新的领域,所以我参考了网上关于MAB问题的一些教程和老师给的官方课件,写了一篇总结,和兄弟们一起学习一下。
⚠️:很多观点来源于本人对课件以及教程的理解,很多地方还不够严谨,甚至有些部分可能是完全错误的,希望大家读的时候可以带着审视的视角,有什么问题可以在下方留言或者直接联系本人(simolark318@gmail.com)
9.26更新: 初版没有重视数学公式的一些理论推导与证明,重新从头推导一遍后发现了一些问题,对部分细节内容以及公式进行了修改。
10.15更新:对部分公式进行了重新修改,改正了一些不应该的失误,对比较重要的几个地方重新进行了推导
想写这个话题其实蛮久了,算是早有预谋吧,毕竟对这个问题的思考,自高中而始,但即使到现在也看不到终点,可以料想到,这个问题将持续很久,我一直觉得,或许只有当我真正想明白的时候,我的人生,才算刚刚开始。