题目
A.动态规划算法
B.Q-Learning
C.Sarsa
D.蒙特卡洛算法
第4题
A.一个episode就是一个从起始状态到结束的经历
B.蒙特卡洛方法需要很少的episode就可以得到准确结果
C.TD方法每次更新不需要使用完整的episode
D.蒙特卡洛的方法需要等到整个episode结束才能更新
第6题
A.运行蒙特卡洛算法p次, 至少有一次是正确的。
B.一致是指蒙特卡洛算法对于一个实例,其正确解是唯一的。
C.当正确解是y0, 而蒙特卡洛算法得到的解不是y0
D.猜硬币的正反面问题,因为猜一次正确的概率是50%,所以不能使用蒙特卡洛算法解决。
第7题
A.偏yes的蒙特卡洛算法如果算法给出的答案是“Yes”,则原问题的答案一定是“Yes”
B.偏no的蒙特卡洛算法如果算法给出的答案是“No”,则原问题的答案一定是“No”
C.偏yes的蒙特卡洛算法如果算法给出的答案是“Yes”,则原问题的答案以小概率是“No”
D.偏no的蒙特卡洛算法如果算法给出的答案是“No”,则原问题的答案以小概率是“Yes”
为了保护您的账号安全,请在“赏学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!