第十一章单元测试
  1. 时序差分算法是基于模型的强化学习( )

  2. A:对 B:错
    答案:错
  3. 以下哪些公式是贝尔曼最优方程?( )

  4. A: B: C: D:
  5. 以下哪些算法属于无模型算法?( )

  6. A:蒙特卡洛算法 B:动态规划算法 C:时序差分算法 D:REINFORCE算法

温馨提示支付 ¥3.00 元后可查看付费内容,请先翻页预览!
点赞(2) dxwkbang
返回
顶部