第四章单元测试
  1. 强化学习是一种在线的、无导师机器学习方法。( )

  2. A:错 B:对
    答案:对
  3. 强化学习Agent的唯一目标就是最大化在长期运行过程中收到的总奖赏。( )

  4. A:错 B:对
  5. 值迭代和策略迭代都是解决马尔可夫决策过程的标准算法。( )

  6. A:错 B:对
  7. 时间差分学习方法是一种模型相关的算法。( )

  8. A:错 B:对
  9. 深度学习、神经网络和Q学习都可以用于轨迹规划。( )

  10. A:对 B:错
  11. Q-learning算法中,Q函数是( )

  12. A:奖励函数
    B:估值函数
    C:状态函数
    D:状态-动作值函数
  13. Q(s,a)是指在给定状态s的情况下,采取行动a之后,后续的各个状态所能得到的回报( )

  14. A:期望值
    B:总和
    C:最小值
    D:最大值
  15. 在强化学习过程中,学习率越大,表示采用新的尝试得到的结果比例越( ),保持旧的结果的比例越()

  16. A:大,小
    B:小,大
    C:大,大
    D:小,小
  17. 在强化学习的过程中,( )能够在稍微偏离目前最好策略的基础上,尝试更多策略,()能够运用目前最好的策略,获取更高的奖励

  18. A:探索,利用
    B:利用,输出
    C:探索,输出
    D:利用,探索
  19. 在epsilon-greedy算法中,epsilon的值越大,采取随机动作的概率越( ),采用当前Q函数最大动作的概率越()

  20. A:大,大
    B:小,小
    C:小,大
    D:大,小

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(3) dxwkbang
返回
顶部