【一起入门DeepLearning】中科院深度学习_期末复习题2018-2019第七题:强化学习

专栏介绍:本栏目为 “2022春季中国科学院大学王亮老师的深度学习” 课程记录,这门课程与自然语言处理以及机器学习有部分知识点重合,重合的部分不再单独开博客记录了,有需要的读者可以移步 自然语言处理专栏和机器学习专栏。 如果感兴趣的话,就和我一起入门DL吧

2018-2019 学年第二学期期末试题
【一起入门DeepLearning】中科院深度学习_期末复习题2018-2019第七题:强化学习_第1张图片
强化学习五要素:

  • S:状态
  • A:动作
  • R:(s a)的奖励值分布
  • P:转移概率
  • γ:折扣因子

适合解决该问题的强化学习算法:

  • Actor-Critic算法:该算法由两个部分组成,Actor部分用于生成智能体与环境交互的动作,Critic部分用于对Actor产生的动作进行评价。

强化学习与监督学习和无监督学习的不同,参考:

  • 有监督学习和无监督学习的特点是基于已有的数据,去学习数据的分布或蕴含的其他重要信息。
  • 强化学习它不是基于已有的数据进行学习,而是针对一个环境进行学习;
  • 另外,它的目标不是学习数据中蕴含的信息,而是寻找能够在环境中取得更多奖励的方法。
  • 通俗地说,监督学习的目标只是“弄清楚环境是什么样的”,而强化学习的目标是“在这个环境中生活得更好”。

概括地说,强化学习算法主要涉及到两个组成部分:

  • 其一是通过与环境交互产生大量的数据
  • 其二是利用这些数据去求解最佳策略。

你可能感兴趣的