第十二章 强化学习:强化学习12.1强化学习计算:强化学习计算
12.2深度强化学习模型:深度强化学习模型
[单选题]()又称再励学习或者评价学习。选项:[强化学习, 机器学习, 迁移学习, 深度学习]
[单选题]蒙特卡罗方法对()和奖励进行频数统计,并以此来估计它们。选项:[迭代, 状态-动作, 改进, 评估]
[单选题]Q学习的基本思想是基于奖励和Q值函数增量估计Q值的动作,使用Q值及其内置的()运算来更新Q值。选项:[乘法, 除法, 极大化, 极小化]
[单选题]在Q学习算法中,如果()函数为深度神经网络,则该方法称为深度Q网络(DQN)。

选项:[状态, 逼近
, 相同, 求解]
[单选题]()是强化学习机的核心,代表着决策进行的方式。选项:[策略, 评估, 价值函数, 奖励信号]
[判断题]强化学习是机器学习的一个重要分支,主要用来解决连续决策问题。选项:[对, 错]
[判断题]根据被评估和被改进的策略是否相同又可分为同策略蒙特卡罗强化学习算法和非策略蒙特卡罗强化学习算法。选项:[对, 错]
[判断题]价值函数是一种连接最优准则和策略的量,用于估计一个特定状态(或在该状态下采取的某一动作)对智能体的贡献程度。选项:[对, 错]
[判断题]目前强化学习探索策略主要有将特定状态-动作对的价值函数用计数器的频数统计的蒙特卡罗方法和基于步骤样例学习的时间差分方法。选项:[错, 对]
[判断题]强化学习就是智能系统从环境到行为映射的学习,以使奖励信号(强化信号)函数值最大,由于外部给出的信息很少,强化学习系统必须依靠外部输入进行自我学习。选项:[错, 对]
[多选题]强化学习是机器学习中与()和()平行的一种学习方法,是智能体自主与外界环境交互任务的重要手段,通过最大化目标函数的学习方法获取从环境状况到行为的映射。选项:[深度学习, 迁移学习, 无监督学习, 监督学习]
[多选题]强化学习最关键的三个因素是()。选项:[状态, 环境奖励, 行为, 结果]
[多选题]强化学习可以在()环境中学习如何实现设定的目标。选项:[简单的, 不确定的, 复杂的, 准确的]
[多选题]在求解给定马尔可夫决策过程中计算最优策略的方法分为()。选项:[基于评估的算法, 基于模型的算法, 基于假设的方法, 基于无模型的算法]
[多选题]下列游戏中哪些是能够用使用强化学习框架描述的例子。()选项:[俄罗斯方块, 开心消消乐, 迷宫, 连连看]
[多选题]强化学习中,基于有模型的学习有那两种方法。()选项:[蒙特卡罗方法, 策略迭代, TD方法, 值迭代]
[多选题]强化学习的变体包括()的强化学习。选项:[深度学习, 阶层强化学习, 部分可观测系统, 逆向强化学习]
[多选题]强化学习与其它机器学习的区别。()选项:[优化目标不同, 都是从数据中学习, 需要的数据类型不同, 从数据中学习]
[多选题]强化学习和监督学习、无监督学习的区别()。选项:[无监督学习没有标签, 监督学习带有标签, 强化学习根据延迟奖励学习策略, 强化学习使用未标记的数据]
[多选题]强化学习的损失函数是(),和深度学习的损失函数有()关系。选项:[使奖励和的期望最小, 使预测值和标签之间的差异最小化, 使奖励和的期望最大, 使预测值和标签之间的差异最大化]

温馨提示支付 ¥1.00 元后可查看付费内容,请先翻页预览!
点赞(0) dxwkbang
返回
顶部