参加李玉喜博士主讲的海创科学沙龙第15场“强化学习应用”有感 by 沈煜斌

通过今天的讲座交流,了解了强化学习的基本情况,首先他和监督学习,无监督学习是类似的,是一种统称的学习方式。
以游戏为例,如果在游戏中采取某种策略可以取得较高的得分,那么就进一步「强化」这种策略,以期继续取得较好的结果。这种策略与日常生活中的各种「绩效奖励」非常类似。我们平时也常常用这样的策略来提高自己的游戏水平。相当于就是反馈机制,得到好的结果,该种策略就会有一个好的reward。
监督式学习就好比你在学习的时候,有一个导师在旁边指点,他知道怎么是对的怎么是错的,但在很多实际问题中,例如 chess,go,这种有成千上万种组合方式的情况,不可能有一个导师知道所有可能的结果。
而这时,强化学习会在没有任何标签的情况下,通过先尝试做出一些行为得到一个结果,通过这个结果是对还是错的反馈,调整之前的行为,就这样不断的调整,算法能够学习到在什么样的情况下选择什么样的行为可以得到最好的结果。
就好比你有一只还没有训练好的小狗,每当它把屋子弄乱后,就减少美味食物的数量(惩罚),每次表现不错时,就加倍美味食物的数量(奖励),那么小狗最终会学到一个知识,就是把客厅弄乱是不好的行为。
两种学习方式都会学习出输入到输出的一个映射,监督式学习出的是之间的关系,可以告诉算法什么样的输入对应着什么样的输出,强化学习出的是给机器的反馈 reward function,即用来判断这个行为是好是坏。
非监督式不是学习输入到输出的映射,而是模式。例如在向用户推荐新闻文章的任务中,非监督式会找到用户先前已经阅读过类似的文章并向他们推荐其一,而强化学习将通过向用户先推荐少量的新闻,并不断获得来自用户的反馈,最后构建用户可能会喜欢的文章的“知识图”。
比如在 Flappy bird 这个游戏中,我们需要简单的点击操作来控制小鸟,躲过各种水管,飞的越远越好,因为飞的越远就能获得更高的积分奖励。
这就是一个典型的强化学习场景:

  • 机器有一个明确的小鸟角色——代理
  • 需要控制小鸟飞的更远——目标
  • 整个游戏过程中需要躲避各种水管——环境
  • 躲避水管的方法是让小鸟用力飞一下——行动
  • 飞的越远,就会获得越多的积分——奖励

然后今天的讲座还了解到类似于星际争霸这样的游戏,里面充满了各种挑战,比如部分可观察性,不完美信息,巨大的动作空间以及策略迭代。
另外,我们还看到了强化学习在推荐系统算法方面也有应用,据研究可以达到点击率提升 25-30%; 登陆页的收益提升18%的效果,这个和传统的机器学习LR算法这些比较,在A/B test方面会更加高效。
为了让强化学习产业化,我们需要的必要的资源有:人才、计算力、数据/模型/模拟器、金钱。
所以,未来可以畅想,有了强化学习,我们向着强人工智能又进了一步。

2019/8/3 Hangzhou

1 thought on “参加李玉喜博士主讲的海创科学沙龙第15场“强化学习应用”有感 by 沈煜斌

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.