强化学习的一种系统思想性理解和整体思维方式的认识 — 聆听海创科学沙龙第15场《强化学习应用》的收获与感想（陈广普）

2019年8月3日聆听了海创院和高促会主办的海创科学沙龙第十五场主题为《强化学习应用》的报告。该场报告在浙江海外高层次人才创新园进行，主讲人是李玉喜博士，主持人是陈羡博士。（因为从下沙赶去，）我在报告进行40分钟后才到达报告厅，过了报告最精彩的开场和一些主要内容。基于一些有监督和无监督分类或聚类算法的应用实践，听了李博士的报告，尤其听了他在报告中提到Yinlam Chow等人2019年初发表的一篇有关于李雅普诺夫稳定性理论在强化学习中的应用的文章，我从机器学习方面理解和领悟到了一些系统性思想，从而对整体思维方式有了进一步的认识。

当前的机器学习算法大致有三大类，即有监督学习、无监督学习和强化学习，深度学习是一种属于监督学习的机器学习。这些机器学习跟人的思维活动在结构上有共性，即系统的结构。无论是机器还是人，都会根据目前（或当前）的信息或状态作为系统的输入，经过其系统控制中心（机器的智能体或人的大脑）进行运算或决策，输出期望的信息或结果。

强化学习作为一个系统，其输入信息也叫输入变量是当前环境的状态和智能体从当前环境获得的奖励值，其输出是这两个输入变量的更新。强化学习有两个特点，一是将环境纳入其系统控制中心的范围（从这一点可以把环境当成系统的一部分），二是存在更新迭代过程。如果把强化学习的系统结构看成是一个函数，x为输入变量，那么就可以将强化学习理解为存在迭代过程x_n+1=G（x_n）。如果把这个系统结构当成一个连续函数，那么就可以把它理解为一个动态系统dx/dt=F(x)。其实，迭代过程也是一种动态系统。无论把强化学习理解程哪种系统结构，其动作和转移函数都是系统函数的内容。尽管报告中提及的论文目前只对连续函数感兴趣，有了动态系统，就可以将动态系统的稳定性理论用于研究强化学习的闭环稳定性（closed-loop stability of the agent）。Yinlam Chow等人的那篇有关于李雅普诺夫稳定性理论在强化学习中的应用的文章，就是应用李雅普诺夫函数的稳定性理论给出safe approximate policy 和value iteration algorithms。理解了李雅普诺夫稳定性理论在强化学习中的应用的思想，这是我在本场海创科学沙龙报告中最大的收获。

也许以上我对强化学习的系统函数理解有偏差，但这并不影响我的思想收获。在报告中，我收悉了一些基础思想方法，也获悉了一些相关论文，这给我以后更进一步在此方面获取知识开辟了道路。

由此收获，使我联想到以前曾经听的一个科技讲座。在那场讲座听到了关于哲学思维方式对中国科学技术影响的评述。有人说：“中国古代知识分子（儒家）对复杂的社会系统有深入的研究，发展了辩证的整体思维方式（道家），善于对政治和军事等复杂问题作综合的判断，但不善于作定量的数学分析和形式逻辑的推理“。其实我国古代知识分子重视群体意识形态的稳固，一方面是效忠国家和阶级利益的需要，另一方面是维护社会正常运行的世界观的需要，中国古代知识分子孕育和发展了辩证的整体思维方式。听了海创科学沙龙关于《强化学习应用》的报告，理解和领悟了系统性思想在强化学习中的应用，更进一步使我认识到中国古代知识分子的这种整体思维方式更能推进新时代中国科技文化的发展。要知道，进入20世纪后，科学技术的发展沿着两条双绞线并行，就像DNA的两个螺旋链一样选择上升，一条是科学发现和理论创新，一条是技术革命和产品研发。前者主要来源于个体思想的创造性开发，而后者主要源自集体智慧和整体努力，这也正适合中国古代知识分子的辩证的整体思维方式的继承和发展。

Leave a Reply Cancel reply