搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

如何理解神经网络变压器(BERT)的训练结果？

我试图通过细化分类任务来训练贝特分类器，但是我在理解训练过程中的表现时遇到了困难。{'loss': 1.1328, 'learning_rate': 4.994266055045872e-05, 'epoch': 0.0} {'eval_loss': 0.994676947593689, 'eva

浏览 3修改于2021-11-11得票数 0

回答已采纳

1回答

空间变压器网络:θ如何可微？

在Spatial Transformer Networks中，给定当前的输入特征图，定位网络的输出θ是可微的。这个θ怎么可微？

浏览 0修改于2018-09-13得票数 2

回答已采纳

1回答

空间变压器网络与变形卷积

允许神经网络学习如何对输入图像进行空间变换，以提高模型的几何不变性。在标准卷积中将2D偏移添加到常规网格采样位置。从网络的角度来看，结果应该是相似的/相同的？如果弄错了，请纠正我。

浏览 0提问于2018-03-23得票数 5

2回答

创建空间变压器网络时未出现错误

我正在尝试在自定义层中实现空间变换网络，因此需要将该层矢量化为卷积层批量大小。当我尝试初始化网络时，Spatial Transformer层给出了一个错误，如果没有值，则无法执行操作。

浏览 24修改于2021-01-26得票数 0

1回答

线性+软件最大层如何给出变压器网络中的字概率？

我正试图从零开始实施一个变压器网络来理解它。我正在使用图示变压器作为指导。我被困的部分是关于如何从最终解码层的输出到线性+ softmax。

浏览 0提问于2021-07-08得票数 0

回答已采纳

2回答

如何预测神经机器翻译中的<unk>标记

例如，如果我有单词MKIK或"牛逼“(这是人工创建的)，我们如何告诉神经网络(变压器模型)保持相同的输出？问题是如何在整流罩上使用变压器模型。我发现fairseq有--replace-unk参数，但是它似乎不适用于变压器模型，或者它有一个错误

浏览 23修改于2022-09-26得票数 0

3回答

什么是测试变压器架构的好玩具问题？

我正在测试变压器和变压器架构的各种变体。但是，关于全语言任务的培训是一件很费时的事情。什么是好的玩具问题，以测试变压器(或其中的替代)是否正在工作？理想情况下，这些问题应该发挥变压器的优势，但对于一个完全连接的前馈网络来说，这是很难解决的。那些只适用于注意力层的任务也是有用的。

浏览 0修改于2021-06-07得票数 5

1回答

为什么在某些变压器网络中仍然使用卷积进行语音增强？

所以我在注意是你所需要的上读到，变形金刚完全消除了重复和卷积的需要。但是，我已经看到一些TNN(如SepFormer、DPTNet和TSTNN)仍然使用卷积。有什么特别的原因吗？这不违背变形金刚的宗旨吗？

浏览 0提问于2021-04-14得票数 1

回答已采纳

1回答

我正在浏览文件，并试图在PyTorch中为Integer取样内核实现一个自定义的grid_sample函数(继承autograd.Function类)。假定整数抽样的工作方式如下：我认为渐变w.r.t输入映射和转换后的网格(x_i^s，y_i^s)应该如下所示：梯度w.r.t转换网格(x_i^s)：梯度w.r.t转换网格(y_i^s)：由于Kronecker函数的导数为零(我不确定这一点！！-帮助) 因此，我得出的结论是，对于输入的梯度w.r.t应该是

浏览 6修改于2021-03-25得票数 4

回答已采纳

1回答

变压器无反馈

关于变压器的新问题。图1(右下角)表示：“输出(右移)”。在我看来，在生成(而不是训练)期间，网络的第n输出似乎是通过消耗n-1输出来计算的，可能还包括更早的输出条目。我的理解正确吗？如果是这样的话，那将是一个反馈，不是吗？但是为什么说变压器是前馈的呢？说变压器在发电时有反馈是正确的吗？

浏览 0修改于2022-03-08得票数 0

1回答

“伯特模型的微调”指的是什么？

或者我们只是用新的数据来训练顶级的几个变压器层。提前感谢！

浏览 1修改于2021-06-01得票数 1

1回答

变压器的反向传播

当一个变压器模型被训练时，在解码器的末端有线性层，我的理解是一个完全连接的神经网络。在变压器模型训练过程中，当有损耗时，会反向传播来调整权值。还是将其扩展到所有解码器层权重矩阵(Q、K、V)和前向层权重？请帮我回答这个问题。

浏览 0提问于2021-02-05得票数 2

回答已采纳

1回答

时间序列异常检测

我实现了变压器神经网络，我很困惑，怎么才能像其他神经网络体系结构那样在变压器中增加更多的层呢？

浏览 0修改于2021-09-02得票数 0

2回答

网络开关盒距480 V变压器的距离

我正在为一家制造工厂做网络布局，遇到了一个我不熟悉的情况。我们有6个钢梁从地面到天花板，我们正在计划安装开关箱，其中将包括一个UPS和一个美拉基MS120-48P。其中一根横梁将包含一个480 V的变压器，用于一些制造设备，这正是我计划安装一个开关盒的那根电杆。到目前为止，开关箱将在变压器上方5-6英尺的地方。这会对网络交换机造成任何干扰吗？

浏览 0提问于2020-02-24得票数 2

回答已采纳

2回答

GPT块和变压器解码器块有什么区别？

我知道GPT是一个基于变压器的神经网络，由几个模块组成.这些块是基于原来的转换器的解码块，但它们完全相同吗？在原有的变压器模型中，解码器块有两种注意机制:一种是纯多头自关注机制，另一种是对编码器输出的自我注意机制。在GPT中没有编码器，因此我假设它的块只有一个注意机制。这就是我发现的主要区别。(就像变压器解码器一样。) 是这样吗？GPT (1,2,3，.)之间的差异还有什么可补充的吗？原来的变压器呢？

浏览 0提问于2020-11-16得票数 5

回答已采纳

1回答

正确设置变压器网络中的输出形状tf.keras未实现误差

我试图创建一个时间分布式转换器模型，但遇到了一个NotImplementedError，我认为这是由于没有正确设置输出形状()所致。我也看到过类似的问题，但没有一个是关于如何在call函数中正确设置输出形状的工作示例。我还在代码中引用了并提出了解决方案。可复制的例子： l2_reg = tf.keras.regularizers.l2(re

浏览 4修改于2020-09-08得票数 0

回答已采纳

1回答

多头专注是否消除了自我关注的需要？

标题可能令人困惑，但假设我要用一个利用多头注意力的掩蔽网络来构建变压器神经网络(就像SepFormer中的那样)，那么在编码器和解码器中添加自我注意是否仍然是必要的？

浏览 0修改于2021-04-12得票数 3

回答已采纳

1回答

何时使用分层规范/批处理规范？

当你设计一个网络时，你应该把规范化连接到哪里？例如，如果你有一个堆叠的变压器或注意力网络，在你有一个密集的层之后，在任何时候正常化是否有意义？

浏览 0提问于2019-06-11得票数 2

1回答

如何用模型参数的数量来计算所需的标度？

我想知道训练这样大小的变压器需要什么样的计算量。难道这仅仅是~10^3倍的失败吗？一般来说，如何计算变压器、神经网络、CNN和其他流行的深度学习模型的模型参数所需的尺度？

浏览 0提问于2022-06-28得票数 1

2回答

变压器与特征选择和常规机器学习有什么不同？

这也许是一种简单的思维方式，但对我来说，变压器(基于注意力的神经网络)只关注输入的一个子集，学习什么对问题/预测是重要的随着训练的进行。这与常规特征选择和神经网络在输入子集上的训练有什么不同？

浏览 0提问于2022-09-26得票数 1

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何理解神经网络变压器(BERT)的训练结果？

空间变压器网络:θ如何可微？

空间变压器网络与变形卷积

创建空间变压器网络时未出现错误

线性+软件最大层如何给出变压器网络中的字概率？

如何预测神经机器翻译中的<unk>标记

什么是测试变压器架构的好玩具问题？

为什么在某些变压器网络中仍然使用卷积进行语音增强？

(可微图像采样)自定义整数采样核，空间变压器网络

变压器无反馈

“伯特模型的微调”指的是什么？

变压器的反向传播

时间序列异常检测

网络开关盒距480 V变压器的距离

GPT块和变压器解码器块有什么区别？

正确设置变压器网络中的输出形状tf.keras未实现误差

多头专注是否消除了自我关注的需要？

何时使用分层规范/批处理规范？

如何用模型参数的数量来计算所需的标度？

变压器与特征选择和常规机器学习有什么不同？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐