腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
如何理解神经
网络
变压器
(BERT)的训练结果?
我试图通过细化分类任务来训练贝特分类器,但是我在理解训练过程中的表现时遇到了困难。{'loss': 1.1328, 'learning_rate': 4.994266055045872e-05, 'epoch': 0.0} {'eval_loss': 0.994676947593689, 'eva
浏览 3
修改于2021-11-11
得票数 0
回答已采纳
1
回答
空间
变压器
网络
:θ如何可微?
在Spatial Transformer Networks中,给定当前的输入特征图,定位
网络
的输出θ是可微的。这个θ怎么可微?
浏览 0
修改于2018-09-13
得票数 2
回答已采纳
1
回答
空间
变压器
网络
与变形卷积
允许神经
网络
学习如何对输入图像进行空间变换,以提高模型的几何不变性。在标准卷积中将2D偏移添加到常规网格采样位置。从
网络
的角度来看,结果应该是相似的/相同的?如果弄错了,请纠正我。
浏览 0
提问于2018-03-23
得票数 5
2
回答
创建空间
变压器
网络
时未出现错误
我正在尝试在自定义层中实现空间变换
网络
,因此需要将该层矢量化为卷积层批量大小。当我尝试初始化
网络
时,Spatial Transformer层给出了一个错误,如果没有值,则无法执行操作。
浏览 24
修改于2021-01-26
得票数 0
1
回答
线性+软件最大层如何给出
变压器
网络
中的字概率?
我正试图从零开始实施一个
变压器
网络
来理解它。我正在使用图示
变压器
作为指导。我被困的部分是关于如何从最终解码层的输出到线性+ softmax。
浏览 0
提问于2021-07-08
得票数 0
回答已采纳
2
回答
如何预测神经机器翻译中的<unk>标记
例如,如果我有单词MKIK或"牛逼“(这是人工创建的),我们如何告诉神经
网络
(
变压器
模型)保持相同的输出? 问题是如何在整流罩上使用
变压器
模型。我发现fairseq有--replace-unk参数,但是它似乎不适用于
变压器
模型,或者它有一个错误
浏览 23
修改于2022-09-26
得票数 0
3
回答
什么是测试
变压器
架构的好玩具问题?
我正在测试
变压器
和
变压器
架构的各种变体。但是,关于全语言任务的培训是一件很费时的事情。什么是好的玩具问题,以测试
变压器
(或其中的替代)是否正在工作?理想情况下,这些问题应该发挥
变压器
的优势,但对于一个完全连接的前馈
网络
来说,这是很难解决的。那些只适用于注意力层的任务也是有用的。
浏览 0
修改于2021-06-07
得票数 5
1
回答
为什么在某些
变压器
网络
中仍然使用卷积进行语音增强?
所以我在注意是你所需要的上读到,变形金刚完全消除了重复和卷积的需要。但是,我已经看到一些TNN(如SepFormer、DPTNet和TSTNN)仍然使用卷积。有什么特别的原因吗?这不违背变形金刚的宗旨吗?
浏览 0
提问于2021-04-14
得票数 1
回答已采纳
1
回答
(可微图像采样)自定义整数采样核,空间
变压器
网络
我正在浏览文件,并试图在PyTorch中为Integer取样内核实现一个自定义的grid_sample函数(继承autograd.Function类)。假定整数抽样的工作方式如下:我认为渐变w.r.t输入映射和转换后的网格(x_i^s,y_i^s)应该如下所示:梯度w.r.t转换网格(x_i^s): 梯度w.r.t转换网格(y_i^s): 由于Kronecker函数的导数为零(我不确定这一点!!-帮助) 因此,我得出的结论是,对于输入的梯度w.r.t应该是
浏览 6
修改于2021-03-25
得票数 4
回答已采纳
1
回答
变压器
无反馈
关于
变压器
的新问题。图1(右下角)表示:“输出(右移)”。在我看来,在生成(而不是训练)期间,
网络
的第n输出似乎是通过消耗n-1输出来计算的,可能还包括更早的输出条目。我的理解正确吗? 如果是这样的话,那将是一个反馈,不是吗?但是为什么说
变压器
是前馈的呢?说
变压器
在发电时有反馈是正确的吗?
浏览 0
修改于2022-03-08
得票数 0
1
回答
“伯特模型的微调”指的是什么?
或者我们只是用新的数据来训练顶级的几个
变压器
层。 提前感谢!
浏览 1
修改于2021-06-01
得票数 1
1
回答
变压器
的反向传播
当一个
变压器
模型被训练时,在解码器的末端有线性层,我的理解是一个完全连接的神经
网络
。在
变压器
模型训练过程中,当有损耗时,会反向传播来调整权值。还是将其扩展到所有解码器层权重矩阵(Q、K、V)和前向层权重?请帮我回答这个问题。
浏览 0
提问于2021-02-05
得票数 2
回答已采纳
1
回答
时间序列异常检测
我实现了
变压器
神经
网络
,我很困惑,怎么才能像其他神经
网络
体系结构那样在
变压器
中增加更多的层呢?
浏览 0
修改于2021-09-02
得票数 0
2
回答
网络
开关盒距480 V
变压器
的距离
我正在为一家制造工厂做
网络
布局,遇到了一个我不熟悉的情况。我们有6个钢梁从地面到天花板,我们正在计划安装开关箱,其中将包括一个UPS和一个美拉基MS120-48P。其中一根横梁将包含一个480 V的
变压器
,用于一些制造设备,这正是我计划安装一个开关盒的那根电杆。到目前为止,开关箱将在
变压器
上方5-6英尺的地方。这会对
网络
交换机造成任何干扰吗?
浏览 0
提问于2020-02-24
得票数 2
回答已采纳
2
回答
GPT块和
变压器
解码器块有什么区别?
我知道GPT是一个基于
变压器
的神经
网络
,由几个模块组成.这些块是基于原来的转换器的解码块,但它们完全相同吗?在原有的
变压器
模型中,解码器块有两种注意机制:一种是纯多头自关注机制,另一种是对编码器输出的自我注意机制。在GPT中没有编码器,因此我假设它的块只有一个注意机制。这就是我发现的主要区别。(就像
变压器
解码器一样。) 是这样吗?GPT (1,2,3,.)之间的差异还有什么可补充的吗?原来的
变压器
呢?
浏览 0
提问于2020-11-16
得票数 5
回答已采纳
1
回答
正确设置
变压器
网络
中的输出形状tf.keras未实现误差
我试图创建一个时间分布式转换器模型,但遇到了一个NotImplementedError,我认为这是由于没有正确设置输出形状()所致。我也看到过类似的问题,但没有一个是关于如何在call函数中正确设置输出形状的工作示例。我还在代码中引用了并提出了解决方案。可复制的例子: l2_reg = tf.keras.regularizers.l2(re
浏览 4
修改于2020-09-08
得票数 0
回答已采纳
1
回答
多头专注是否消除了自我关注的需要?
标题可能令人困惑,但假设我要用一个利用多头注意力的掩蔽
网络
来构建
变压器
神经
网络
(就像SepFormer中的那样),那么在编码器和解码器中添加自我注意是否仍然是必要的?
浏览 0
修改于2021-04-12
得票数 3
回答已采纳
1
回答
何时使用分层规范/批处理规范?
当你设计一个
网络
时,你应该把规范化连接到哪里?例如,如果你有一个堆叠的
变压器
或注意力
网络
,在你有一个密集的层之后,在任何时候正常化是否有意义?
浏览 0
提问于2019-06-11
得票数 2
1
回答
如何用模型参数的数量来计算所需的标度?
我想知道训练这样大小的
变压器
需要什么样的计算量。难道这仅仅是~10^3倍的失败吗? 一般来说,如何计算
变压器
、神经
网络
、CNN和其他流行的深度学习模型的模型参数所需的尺度?
浏览 0
提问于2022-06-28
得票数 1
2
回答
变压器
与特征选择和常规机器学习有什么不同?
这也许是一种简单的思维方式,但对我来说,
变压器
(基于注意力的神经
网络
)只关注输入的一个子集,学习什么对问题/预测是重要的随着训练的进行。 这与常规特征选择和神经
网络
在输入子集上的训练有什么不同?
浏览 0
提问于2022-09-26
得票数 1
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券