题目
A.传统的强化学习依赖线性价值函数(value function)或策略表达来实现
B.策略就是从环境感知的状态到在这些状态中可采用动作的一个映射
C.随机策略总是选择估计报酬为最大的动作
D.奖赏函数定义了在强化学习问题中的目标
第1题
A.Policy based的强化学习类型要明显优于Value based和Action based的方法
B.强化学习中的Agent有明确的目标用于指导自己的行为
C.Agent的模型参数是根据环境的反馈来更新
D.电子竞技和AI游戏中
第3题
第5题
A.微课核心价值体现在在课堂中播放时可以吸引学生注意力,增加学生学习效率
B.微课核心价值体现在可以发现学生课前学习中存在的问题
C.微课核心价值体现在反转课堂中强化学生对知识的记忆和理解
D.以上都对
第9题
A.正强化和负强化都能够增加某种反应发生的频率
B.强化物一定是令人愉快的刺激
C.结果预期是指对某种行为导致某种结果的个人预期
D.学习即行为反应概率的变化
第10题
A.强化学习(Reinforcement Learning, RL) 是一个独立的方法,不是一种机器学习的模式,或者说不是一种思路
B.特征迁移:估计任务A和B之间的“差距”,设计一个变换方程,将任务A的数据转换为任务B的数据,再进行训练。
C.模型迁移:使用任务A训练得到的模型,经过某种变换,直接应用于任务B
D.强化学习认为,计算机单纯通过感知环境,与环境交互,并且从交互中获得评价反 馈,就可以适应所处的环境。
为了保护您的账号安全,请在“赏学吧”公众号进行验证,点击“官网服务”-“账号验证”后输入验证码“”完成验证,验证成功后方可继续查看答案!