可训练的投影层据说是非常强大的东西,但是在阅读之后:
我不明白它是怎么工作的。那么,PRADO和pQRNN中使用的可训练投影层是如何工作的呢?
发布于 2021-04-11 02:16:56
这两篇论文的核心思想都是用可训练的激活来代替单词嵌入,这些活动是通过一个神经网络计算出来的。网络(称为瓶颈层)以字投影作为输入。此网络的参数在令牌之间共享。这将导致可训练的令牌表示形式。投影本身是不可训练的,但是从投影导出的表示是可训练的。希望能澄清。
https://datascience.stackexchange.com/questions/92439
复制相似问题