腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(4271)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
“
强化
学习
”在监督
学习
模型中的应用
是否可以在有监督的模型上使用“
强化
学习
”或
反馈
回路?我使用监督
学习
模型(更确切地说是线性回归模型)解决了一个机器
学习
问题,但我希望通过对预测输出创建一个
反馈
环来改进结果,即如果算法在某些例子上出错,就告诉算法。据我所知,这基本上就是
强化
学习
的工作原理:该模型从正负
反馈
中
学习
。 我发现我们可以使用PyBrain实现有监督
学习
和
强化
学习
算法,但我无法找到两者之间的关联
浏览 2
提问于2019-07-11
得票数 0
1
回答
为什么深层
强化
学习
不能学会如何玩小行星?
深入的Q-
学习
,A3C,政策进化的遗传算法,他们都没有
学习
小行星,或至少表现比
人类
差得多。根据RL的说法,从最艰难的Atari游戏来看,大部分的焦点都集中在蒙特祖马的复仇上,这显然受到了很少的奖励。以下是一些报告小行星上的坏结果的论文(有些文章互相引用):深度
强化
学习
的大规模并行
学习
方法基于深度
强化
学习
的
浏览 0
修改于2018-02-19
得票数 3
回答已采纳
3
回答
使用
强化
学习
解决分类问题
我可以在分类中使用
强化
学习
吗?比如
人类
活动识别?又是如何做到的?
浏览 2
修改于2020-11-28
得票数 11
1
回答
监督
学习
与离线(批)
强化
学习
大多数材料(例如大卫·西尔弗的在线课程)我都能找到关于监督
学习
和
强化
学习
之间关系的讨论。然而,它实际上是监督
学习
和在线
强化
学习
的比较,在这种情况下,agent在环境中运行(或模拟交互),以获得对底层动力学的有限知识的
反馈
。我对离线(批量)
强化
学习
更感兴趣,在这里,数据集(收集的
学习
经验)是先验的。与监督
学习
相比,有什么不同?他们可能有哪些相似之处?
浏览 4
修改于2021-08-30
得票数 0
回答已采纳
1
回答
在ChatGPT中,
强化
-从人的
学习
反馈
和数据重新标签之间的区别是什么?
强化
-向人
学习
-
反馈
对培训数据-标签-再一次.
浏览 0
修改于2023-02-08
得票数 1
1
回答
我们是否需要使用非政策方法来制定政策?
假设在一个环境中有一个
强化
学习
任务和一个代理。我希望
人类
教师手动修改agent的策略(策略成形),以加快agent的
学习
速度。我是否必须使用非策略的方法,或者我可以不受政策影响?为什么?
浏览 0
提问于2018-10-26
得票数 0
回答已采纳
2
回答
强化
学习
中的负
反馈
我无法回答这样的问题:,负回报到底是如何帮助机器避免的?这个问题的起源来自。根据他们的逻辑,一旦游戏结束(代理赢或输分),环境返回奖励(+1或-1)。任何中间状态返回0作为奖励。这意味着每一次胜利/松散都会返回0,0,0,0,...,0,1或者0,0,0,...,0,-1奖励数组。然后他们给奖励打折扣并使其标准化:prwd = discount_rewards(rwd, args.gamma)prw
浏览 0
提问于2019-02-19
得票数 0
回答已采纳
1
回答
评估
强化
学习
agent玩Atari的人追踪数据?
在最近关于Atari游戏的
强化
学习
研究中,agents的性能是通过人的启动来评估的。 我在哪里能得到这个
人类
专业人员的游戏追踪数据? 对于票价比较,每项研究的追踪数据应该是相同的,但我找不到数据。
浏览 1
修改于2018-06-26
得票数 2
回答已采纳
3
回答
在机器
学习
中使用
反馈
还是
强化
?
我想知道是否有可能在范例中引入一些
反馈
机制。在控制理论中,引入
反馈
回路是提高系统性能的有效途径。
反馈
方法是否正在进行研究?有人能给点线索吗?
浏览 0
提问于2014-04-04
得票数 16
1
回答
强化
学习
:处理不可量化的
反馈
系统
我正在尝试写一个
强化
学习
算法,为了简单起见,它将预测一个我认为通过n个输入的数字,它们是什么并不重要。但是这里的
反馈
是无法量化的。 我该如何解决这个问题?仅供参考,我是ML的新手,它没有必要是
强化
学习
。我也尝试过神经网络方法,但即使这样也有类似的问题。
浏览 1
提问于2018-05-12
得票数 1
1
回答
在
强化
学习
中,我可以在创建转换集时从状态空间随机分配next_states给我的代理吗?
在
强化
学习
中,同时创建转换示例(状态、动作、next_state、奖励),其中:环境:培训师 环境给代理两个
反馈
:奖励和下一个状态。
浏览 0
提问于2018-12-07
得票数 1
1
回答
基于已知动力学方程的
强化
学习
控制
我知道有基于模型的
强化
学习
。但是所有的方法都假设是MDP。 如果我想对一个系统进行
反馈
控制(即控制倒立摆),就很容易找到非线性微分方程。
浏览 0
修改于2019-06-30
得票数 0
1
回答
有没有办法限制PythonHar芳3D项目中的日志输出?
我目前正在尝试调整哈方斗狗沙箱飞行模拟器的
强化
学习
项目,我遇到的第一个“问题”是日志太冗长。 作为参考,这是我正在处理的项目:
浏览 19
修改于2022-05-21
得票数 1
回答已采纳
2
回答
基于
强化
学习
的神经网络训练
我知道前馈神经网络的基本知识,以及如何使用反向传播算法来训练它们,但我正在寻找一种比我能用来训练神经网络的
强化
学习
的算法。另一种情况类似于,在这种情况下,
反馈
被延迟,只限于目标和反目标,而不是奖励。它们也可能适用于第二种情况,但速度慢得令人难以置信,不利于在线
学习
。 我的问题很简单:是否有一个简单的算法来训练带有
强化
学习
的人工神经网络?
浏览 1
提问于2012-05-23
得票数 67
回答已采纳
1
回答
如果国家不再重复,
强化
学习
会起作用吗?
我正在收集页面单击etc.What的隐式
反馈
--我不明白如何定义状态--如果我想通过
强化
学习
来实现这一点?如果我将每个查询定义为一个状态,所有的状态都会不同-- .Can --请对此有所了解!!
浏览 0
提问于2018-10-24
得票数 1
1
回答
逆
强化
学习
的实际应用是什么?
逆
强化
学习
是利用专家轨迹
学习
奖励函数。目前最成功的方法是最大熵逆
强化
学习
。但在这一点上,你需要一个基于模型的
强化
学习
。但世界上大多数实际问题都是无模型的,很难计算出状态转移概率。那么,我们如何在现实问题中使用这种逆
强化
学习
呢?
浏览 0
提问于2018-04-02
得票数 3
回答已采纳
6
回答
如何将
强化
学习
应用于连续动作空间?
我试图找一个代理来
学习
在
强化
学习
环境中最好地执行某些任务所需的鼠标移动(即奖励信号是
学习
的唯一
反馈
)。我希望使用Q-
学习
技术,但是虽然我已经找到了,但我似乎不知道如何用一个连续的操作空间来解决问题。由于标准的Q-
学习
要求agent对所有可能的行为进行评估,这样的近似并不能解决任何实际意义上的问题。
浏览 8
修改于2019-02-19
得票数 50
回答已采纳
1
回答
如何在没有培训数据的情况下生成评等?
我想使用
强化
学习
来
学习
与用户
反馈
的评级,但不确定如何做到这一点。有人能为这个问题提出一个相关的技术或算法吗?
浏览 0
修改于2016-01-18
得票数 0
7
回答
如何实现深度
强化
学习
(DQN)?
深度学习
、
编程算法
、
强化学习
DQN(Deep Q-Learning)可谓是深度
强化
学习
(Deep Reinforcement Learning,DRL)的开山之作,是将深度
学习
与
强化
学习
结合起来从而实现从感知(Perception)到动作( Action )的端对端(End-to-end)
学习
的一种全新的算法 ,该如何实现深度
强化
学习
(DQN)呢?
浏览 3856
提问于2018-10-10
1
回答
基于模型和模型的
强化
学习
我正在
学习
强化
学习
,我发现了令人困惑的信息。我知道有两种不同类型的
强化
学习
,基于模型和模型自由。在第二个图像中,可以看到TD
学习
,所以我不明白Td
学习
是另一种
强化
学习
还是基于模型的。 📷
浏览 0
提问于2022-02-21
得票数 0
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券