腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(8084)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
StableBaselines3神经网络-为什么当我第二次调用model.learn()时性能下降/不稳定?
我正在使用Tensorboard记录平均插曲
奖励
,以跟踪培训进度。然而,我注意到了一些对我来说毫无意义的事情。下面是一些培训的截图: 红线是在通过model=PPO(.)创建我的
模型
之后,调用model.learn(500000)时的平均插曲
奖励
。蓝线是当第一次model.learn(500000)训练结束后,我再次打电话给model.learn(500000)时的平均插曲
奖励
,我以为这只会继续以前的model.learn()停止的训练。为什么第二次model.learn()运行的初始性能会有如此
大
浏览 8
提问于2022-06-28
得票数 0
0
回答
【域名迁移】请教下跨云DNS域名
备案
Cname解析迁移以下方案是否可行?
ICP备案
、
云服务器
、
dns
、
迁移
、
腾讯云
跨云DNS域名
备案
Cname解析跳转解决方案 图片
浏览 111
提问于2023-09-04
1
回答
对AWS Deep Racer中先前创建的
奖励
功能的思考
假设我创建了一个
奖励
fn。然后训练我的
模型
。然后,我克隆
模型
并对
奖励
fn进行更改。(让我们说
奖励
fn。B)并训练它。所以最终的
模型
也有从
奖励
fn中学习到的东西。A和B,或者它忘记了从fn中学习。A,并且只从
奖励
fn得到训练。B?
浏览 0
提问于2019-10-25
得票数 1
3
回答
备案
真是害死我了,帮帮我?
ICP备案
大家好,我是建站小白,先前在主机屋(垃圾垃圾
大
垃圾)首次
备案
,现在
备案
主体的手机号和办公电话(当时主机屋要求我必须写,我没有固定电话就编了一个)都变化了,不知道怎么修改,问主机屋,尼玛气死我,死活不管,投诉都没地,腾讯云这里
备案
,需要填写主体信息,难道非要我一直填写假信息?
浏览 840
提问于2018-03-25
1
回答
使用hstore字段作为关联字段
只是一个关于像关联
模型
一样使用hstore字段是否安全或良好实践的问题,例如,我的
模型
是用户、
奖励
和
奖励
,我希望有以下关联: has_manyclass Reward < ActiveRecord::Baseend 注意:
奖励
模型
将有一个hstore字段,我将在其中存储
奖励<
浏览 1
修改于2014-11-23
得票数 1
回答已采纳
0
回答
具有特定自定义成本函数的Tensorflow NN
每个样本的目标向量都是做出某种选择的
奖励
(惩罚可以是负的,中性可以是0)(其中有3个)。这个想法是最大化所有样本的总和
奖励
。给定一个样本输入,该样本输入映射到具有目标
模型
e,f的
模型
输出M=a,b,c;该特定样本的损失将是M*Y',或者简称为-tf.matmul( Y=d,Y,transpose_b=True)。简单地使用上面的示例代码将产生一个无意义的批量大小^2
大
小的矩阵。 我该怎么做呢?
浏览 2
提问于2016-07-06
得票数 1
1
回答
强化学习
模型
总是给出不同的输出
我正试图为硬件容量优化建立一个强化学习
模型
。
模型
的状态将输入CPU容量利用率、内存利用率。这个
模型
应该用来预测我需要为我的环境准备的CPU、内存等等。该
模型
以DQN为核心,基于当前容量的
奖励
机制。我面临的挑战是,每当我以相同的输入状态和
奖励
机制运行时,我就会得到不同的硬件组合。 RL是否可能为同一组输入和
奖励
提供不同的输出?
浏览 0
修改于2021-02-21
得票数 0
1
回答
QuorumChain
模型
是否
奖励
确定下一个块的节点?
我知道工作证明
模型
,如Bitcoin有挖掘,它
奖励
发现下一个区块的矿工。然而,这种
奖励
在QuorumChain
模型
中存在吗?为什么?
浏览 2
修改于2018-04-19
得票数 0
1
回答
Django在返回时将反向外键的值添加为字段
一种是任务
模型
,另一种是报酬
模型
。(max_length=100) task = model.ForeignKey(Task)我得到了一个错误:注释‘
奖励
’与
模型
上的一个字段发生冲突。请告诉我如何解决这个问题。我希望在每个任务对象中都有一个字段
奖励
。
浏览 0
提问于2017-05-30
得票数 0
回答已采纳
1
回答
如何在核心数据中建立持有人/交易实体?
让我们说我们有实体:参与者,
奖励
,RewardsRedeemed 参与者可以执行任务以获得
奖励
。
奖励
是所有可用
奖励
的表。
奖励
兑换是一种“交易”表,它将存储哪些参与者赎回了什么
奖励
。如何将拥有“事务”实体这一所需的功能转换为核心数据
模型
?
浏览 0
提问于2013-10-12
得票数 1
回答已采纳
2
回答
DQN的报酬函数设计原则是什么?
我正在设计一个DQN
模型
的
奖励
函数,这是深层强化学习中最棘手的部分。我参考了几个案例,并注意到通常
奖励
会在- 1,1。考虑到如果负性
奖励
被触发的次数较少,与正奖赏相比“稀疏”,则肯定
奖励
可能低于1。我想知道为什么我总是把
奖励
设定在这个范围内(有时可以是0,1,其他时候可以是-1,0或简单-1)?范围背后的理论或原理是什么?我能模糊地理解这与梯度
浏览 6
修改于2020-08-03
得票数 0
4
回答
将不同的
模型
加载到部分视图中
具体来说,我希望用户能够执行以下操作: 我使用部分视图来实现这一点,因为我可以为每个部分设置一个新
模型
。我知道视图
模型
是首选的方法,但是由于我还没有想出如何正确地使用视图
模型
,所以我将采用这种方法。我在另一个项目上这样做过,
浏览 3
提问于2015-08-18
得票数 0
1
回答
如何确定在DQN
模型
中使用正
奖励
还是负
奖励
?
我刚接触深度强化学习,DQN
模型
。我使用Open AI gym分别重现了一些名为CartPole-v0和MountainCar-v0的实验。这两个
模型
都能成功运行,并获得预期的测试集
奖励
。但两种
模型
的每个时间步长的
奖励
是不同的。 对于CartPole-v0,
奖励
是+1和0。每一集都有300个时间步长,代理试图尽可能多地获得总
奖励
。https://github.com/openai/gym/blob/master
浏览 98
提问于2020-07-21
得票数 0
0
回答
三向建模django
我想为django中的
奖励
函数建模一个模式。我有一个用户
模型
,一个节目
模型
和一个奖项
模型
。用户可以在一个节目中获得一个奖项。我可以简单地说,用户'aaa‘获得了'bbb’奖。但是该
奖励
不能与另一个节目的其他用户相关联。 我认为有三种方式建模需要为用户,显示和
奖励
。有没有什么复杂的方法呢?我知道“通过”,但我不认为这是一个很好的工具。如果是的话,你能指导我怎么做吗?
浏览 9
提问于2017-06-10
得票数 0
回答已采纳
2
回答
减少Django中的查询数量
我正在创建一个Django应用程序,跟踪一个人获得的
奖励
。下面是我拥有的两个
模型
的简化表示: name = models.CharField() award_holder = models.ForeignKey(AwardHolder) 我为获奖者创建了一个摘要页面,在那里他可以看到他的总
奖励
这一切都很好,但随后我创建了一个概述页面,以显示每个获奖者的总
奖
浏览 10
修改于2016-08-13
得票数 1
回答已采纳
2
回答
Django关系查询关系
我有一套
模型
连接外键,但要求有点奇怪。我需要按他们亲戚的关系列出物品。所以我试着在下面描述一下,考虑到: 我需要列出工作项目,以便他们被列入
奖励
类别预期产出将是: 工作实例A(与上面相同的实例,但由不同的a
浏览 4
修改于2012-09-13
得票数 0
2
回答
在数据库中存储数据与在类中存储数据
当代码提交时,他们会得到他们应得的
奖励
。
奖励
可以是不同的,比如“下一次购买时打九折”,“免费T恤”,“下次购买时免费送货”等。 我的应用程序中有一个Code
模型
,它是用户最初提交的唯一代码的
模型
。我的第一个想法是有一个Reward
模型
和一个rewards表来在数据库中存储可用的
奖励
,然后在用户提交他们唯一的代码后将相关的
奖励
呈现给用户。这样,我就可以根据需要在每个
奖励
类型中构建尽可能多的自定义功能。例如,每个
奖励
类都有一个名为disp
浏览 2
提问于2015-06-11
得票数 1
2
回答
Laravel5.4:调用未定义方法Illuminate/Database/Query/Builder::getRelated()
claim_rewards表由以下内容组成因此,如果用户有3项
奖励
,而用户要求一项
奖励
,则只应在字段中显示剩余的两项
奖励
,因此我认为应该使用claim_rewards.status', '=', '0'); ->select('level_rewards.*')->get();我甚至将其包含在LevelRewards
模型
中编辑: 下面是level_
浏览 0
修改于2019-04-17
得票数 1
回答已采纳
1
回答
在Vowpal wabbit的上下文强盗中,--cb_探索性选项是否也包括训练最佳预测器(--cb选项)?
当我用Vowpal wabbit来对付上下文匪徒时,我的理解是, 我可以使用--cb选项来优化基于已经收集的上下文强盗数据的预测器。-cb获取只用于建立一个预测
奖励
的
模型
,并且它不包含任何探索,就是选择
奖励
(它总是选择最大的
奖励
)。因此,这就是上面#1的功能。-cb_探索者选项执行
奖励
的探索(上面的第2条)。我不确定的是,当我指定-
浏览 5
修改于2022-03-17
得票数 1
1
回答
用于发送令牌的钱包的多重Sig。
每个项目都有最高的钱包,我们也有,包括营销钱包,国库钱包和
奖励
钱包。它能用吗?智能契约将如何在没有多个sig的情况下发送令牌?
浏览 0
提问于2022-02-07
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券