文章/答案/技术大牛

发布

社区首页 >问答首页 >线性+软件最大层如何给出变压器网络中的字概率？

问线性+软件最大层如何给出变压器网络中的字概率？
EN

Data Science用户

提问于 2021-07-08 17:30:20

回答 1查看 423关注 0票数 0

我正试图从零开始实施一个变压器网络来理解它。我正在使用图示变压器作为指导。我被困的部分是关于如何从最终解码层的输出到线性+ softmax。

据我所知，如果我们有一批B，max输出seq长度M，嵌入维数D和声标大小V，那么最后一个解码器层的输出将是BxMxD，我们必须将它转化为BxV大小概率的向量，这样我们就可以应用softmax并得到下一个预测词。但是，我们如何从变大小的MxD矩阵到一个固定长度的V向量呢？

这个职位说，我们将线性层依次应用于所有M向量：

事情就是这样。它不会被压平成一个向量。线性变换分别应用于序列中的所有M向量。这些向量有一个固定的维数，这就是它工作的原因。

但是，我们如何将这些转化的向量合并成一个向量呢？我们把它们加起来吗？

machine-learning

nlp

pytorch

transformer

回答 1

Data Science用户

回答已采纳

发布于 2021-07-08 18:05:18

你的理解不对。

从B \times M \times D张量到B \times M \times V张量(即逻辑)。正如你所看到的，在最后的张量中，我们有维数V的M向量(每个令牌有一个向量)，而不仅仅是一个向量。

要获得B \times M \times V，只需执行矩阵乘法。

这适用于变压器，但也适用于大多数序列生成模型，如LSTM。

票数 0

页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://datascience.stackexchange.com/questions/97628

复制

相似问题

问线性+软件最大层如何给出变压器网络中的字概率？
EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问线性+软件最大层如何给出变压器网络中的字概率？EN

回答 1

Data Science用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问线性+软件最大层如何给出变压器网络中的字概率？
EN