- 1、本文档共8页,可阅读全部内容。
- 2、有哪些信誉好的足球投注网站(book118)网站文档一经付费(服务费),不意味着购买了该文档的版权,仅供个人/单位学习、研究之用,不得用于商业用途,未经授权,严禁复制、发行、汇编、翻译或者网络传播等,侵权必究。
- 3、本站所有内容均由合作方或网友上传,本站不对文档的完整性、权威性及其观点立场正确性做任何保证或承诺!文档内容仅供研究参考,付费前请自行鉴别。如您付费,意味着您自己接受本站规则且自行承担风险,本站不退款、不进行额外附加服务;查看《如何避免下载的几个坑》。如果您已付费下载过本站文档,您可以点击 这里二次下载。
- 4、如文档侵犯商业秘密、侵犯著作权、侵犯人身权等,请点击“版权申诉”(推荐),也可以打举报电话:400-050-0827(电话支持时间:9:00-18:30)。
试题列表
单选题
题型:单选题客观题分值5分难度:简单得分:5
1
确定性策略梯度算法(DPG)的核心思想是什么?
A
通过最大化当前状态的Q值来选择最优动作
B
通过最小化策略的损失函数来更新策略
C
直接通过策略梯度优化确定性策略的参数
D
通过生成随机动作来更新策略
学生答案:C
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
2
DQN中用到的技巧有()。
A
目标网络、利用、经验回放
B
目标网络、探索、经验回放
C
Q网络、利用、经验回放
D
V网络、探索、经验回放
学生答案:B
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
3
Actor-Critic算法中的Actor和Critic各自的作用是什么?
A
Actor负责选择动作,Critic负责计算价值函数并评估Actor的策略
B
Actor负责计算奖励,Critic负责选择最佳动作
C
Actor负责计算值函数,Critic负责选择动作
D
Actor和Critic共同负责选择最优奖励
学生答案:A
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
4
以下说法是否正确:为了保证强化学习的训练效果,需要打破训练样本数据之间的相关性。
A
正确
B
错误
学生答案:A
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
5
在REINFORCE算法中,策略更新是如何进行的?
A
通过贪心选择来更新策略
B
通过最大化当前状态的价值函数来更新策略
C
使用策略的梯度与回报的乘积来更新策略
D
使用Q值来直接更新策略参数
学生答案:C
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
6
以下说法是否正确:强化学习的数据存在马尔可夫性,满足训练神经网络需样本独立同分布的假设前提。
A
正确
B
错误
学生答案:B
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
7
DDPG算法一共有()个神经网络。
A
1
B
2
C
3
D
4
学生答案:D
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
8
DDPG算法是()算法和()算法的结合。
A
DPGAC
B
DPAC
C
SarsaQ-learning
D
ACQ-learning
学生答案:A
老师点评:
题型:单选题客观题分值5分难度:简单得分:5
9
基于策略的方法(Policy-basedMethods)与值函数方法(Value-basedMethods)最主要的区别是:
A
基于策略的方法直接优化策略,而值函数方法通过估计状态或状态-动作值来间接优化策略
B
基于策略的方法依赖于奖励函数,而值函数方法不依赖于奖励函数
C
基于策略的方法只在离散空间中有效,而值函数方法在连续空间中有效
D
基于策略的方法只能应用于强化学习中,而值函数方法可以应用于监督学习
学生答案:A
老师点评:
多选题
题型:多选题客观题分值5分难度:简单得分:5
1
DQN只能处理()、()的动作空间。
A
低维
B
高维
C
离散
D
连续
学生答案:A;C
老师点评:
题型:多选题客观题分值5分难度:简单得分:5
2
随机策略梯度方法具有以下缺点()。
A
即使学到了随即策略,在每一步动作时,还需要对得到的最优策略概率分布进行采样,才能获得具体的动作值。频繁采样非常耗费计算力。
B
每一步计算策略梯度都需要在整个动作空间进行积分,耗费计算力。
C
最优策略是输出确定性动作。
D
最优策略只有一个。
学生答案:A;B
老师点评:
题型:多选题客观题分值5分难度:简单得分:5
3
DQN的经验回放会构建一个回放缓冲区,每个经验的形式包括以下内容:()。
A
某个状态st
B
在st采取的动作at
C
得到的奖励rt
D
下一步采取的动作at+1
E
进入的下一状态st+1
学生答案:A;B;C;E
老师点评:
题型:多选题客观题分值5分难度:简单得分:5
4
DQN算法是基于()算法,结合了价值函数近似与神经网络技术,并采用目标网络和()等方法进行网络训练。
A
深度学习的Sarsa
B
当前网络
C
深度学习的Q-learning
D
经验回放
学生答案:C;D
老师点评:
题型:多选题客观题分值5分难度:简单得分:5
5
DQN中的评论员采用Q函数的话,它的两种写法是()。
A
输入状态和动作,输出一个标量。
B
输入状态和动作,输出多个值。
C
输入一个状态,输出多个值。
D
输入一个状态,输出一个标量。
学生答案:A;C
老师点评:
简答题
题型:简答题主观题分值15分难度:简单得分:15
1
请简述一下DDPG算法?(应包含内容:DDPG网络的结构,输出,相对于DPG的优化目的,至少3个方面的含义,少于三个方面时,每写出一方面得5分,三个方
您可能关注的文档
- 江苏开放大学大学英语(A)050021过程性考核作业1.docx
- 江苏开放大学大学英语(B)(1)060051过程性考核作业1.docx
- 江苏开放大学儿童发展060519过程性考核(一).docx
- 江苏开放大学工程测量060837作业1.docx
- 江苏开放大学工程估价060064课程作业1.docx
- 江苏开放大学公共政策分析060195第一次形考作业.docx
- 江苏开放大学合同法061121第一次平时作业.docx
- 江苏开放大学环保设备基础060115第1次作业.docx
- 江苏开放大学机械制图050081第二次形成性考核作业.docx
- 江苏开放大学机械制图050081第一次形成性考核作业.docx
江苏开放大学,北京开放大学,西安开放大学,国开,云南开放大学,浙江电大,贵州电大,甘肃电大,兰大网院,四川电大,天津开放大学
文档评论(0)