第七章测试
1. 下面对强化学习、监督学习和深度卷积神经网络学习的描述正确的是( )
A:评估学习方式、端到端学习方式、端到端学习方式 B:评估学习方式、有标注信息学习方式、端到端学习方式 C:无标注学习、有标注信息学习方式、端到端学习方式 D:有标注信息学习方式、端到端学习方式、端到端学习方式
答案:B
2. 在强化学习中,通过哪两个步骤的迭代,来学习得到最佳策略( )
A:贪心策略优化与Q-learning B:策略优化与策略评估 C:价值函数计算与动作-价值函数计算 D:动态规划与Q-Learning 3. 在强化学习中,哪个机制的引入使得强化学习具备了在利用与探索中寻求平衡的能力( )
A:蒙特卡洛采样 B:贪心策略 C:动态规划 D:贝尔曼方程 4. 与马尔可夫奖励过程相比,马尔可夫决策过程引入了哪一个新的元素( )
A:概率转移矩阵 B:动作 C:反馈 D:终止状态 5. 在本章内容范围内,“在状态,按照某个策略行动后在未来所获得回报值的期望”,这句话描述了状态的( B );“在状态,按照某个策略采取动作后在未来所获得回报值的期望”,这句话描述了状态的( )
A:动作-价值函数 B:采样函数 C:策略优化 D:价值函数

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(1) dxwkbang
返回
顶部