海洋机器人与人工智能答案2023秋

1008 阅读 0 评论 31 点赞

第四章测试

1.强化学习是一种在线的、无导师机器学习方法。（）
A:错 B:对
答案:B
2.强化学习Agent的唯一目标就是最大化在长期运行过程中收到的总奖赏。（）
A:对 B:错

3.值迭代和策略迭代都是解决马尔可夫决策过程的标准算法。（）
A:对 B:错

4.时间差分学习方法是一种模型相关的算法。（）
A:错 B:对

5.深度学习、神经网络和Q学习都可以用于轨迹规划。（）
A:对 B:错

6.Q-learning算法中，Q函数是( )
A:奖励函数
B:状态函数
C:状态-动作值函数
D:估值函数

7.Q(s,a)是指在给定状态s的情况下，采取行动a之后，后续的各个状态所能得到的回报（）
A:期望值
B:总和
C:最小值
D:最大值

8.在强化学习过程中，学习率越大，表示采用新的尝试得到的结果比例越（），保持旧的结果的比例越（）
A:小，大
B:小，小
C:大，小
D:大，大

9.在强化学习的过程中，（）能够在稍微偏离目前最好策略的基础上，尝试更多策略，（）能够运用目前最好的策略，获取更高的奖励
A:利用，探索
B:利用，输出
C:探索，利用
D:探索，输出

10.在epsilon-greedy算法中，epsilon的值越大，采取随机动作的概率越（），采用当前Q函数最大动作的概率越（）
A:小，大
B:大，小
C:大，大
D:小，小

温馨提示支付 ￥3.00 元后可查看付费内容,请先翻页预览!

微信支付