我需要在我的论文中解释Keras的单词嵌入层,数学上。我知道keras会随机初始化嵌入向量,然后使用程序员指定的优化器更新参数。我想在一篇学术论文中解释我的架构,因此我需要用一个正式的公式来解释每一层。是否有一篇论文详细地解释了这一方法以供参考?或者请你指导我如何正式地撰写这个方法?
非常感谢
发布于 2019-05-30 10:23:21
我想我找到了答案。角点中的嵌入层只不过是一组不同单词的向量。keras嵌入层用一些随机值(来自均匀分布的默认值)初始化单词嵌入,然后在训练整个网络时更新这些值。因此,不需要详细地组合模型,因为反向传播可以很好地完成:)
https://datascience.stackexchange.com/questions/52900
复制相似问题