我正在研究一种反复出现的语言模式。为了学习可以用于初始化我的语言模型的单词嵌入,我使用gensim的word2vec模型。经过训练,word2vec模型对词汇表中的每个单词包含两个向量:单词嵌入(输入/隐藏矩阵行)和上下文嵌入(隐藏/输出矩阵列)。
正如这个职位中所概述的,至少有三种共同的方法来组合这两个嵌入向量:
然而,我找不到关于最佳策略的适当文件或报告。所以我的问题是:
相关问题(但尚未回答):
发布于 2018-01-18 11:51:26
我在斯坦福大学的讲座“自然语言处理的深度学习”(2016年3月第2课)中找到了答案。这是可用的这里。在第46分钟,Richard说,常见的方法是平均,两个字向量。
发布于 2018-10-30 18:04:33
发布于 2020-04-10 02:42:38
我不知道有什么工作可以用经验性的方法来检验这两个向量的组合方式,但是有一篇很有影响力的论文比较: 1)只使用单词向量,2)将单词和上下文向量相加。论文在这里:https://www.aclweb.org/anthology/Q15-1016/。
首先,注意度量是类比和相似测试,而不是下游任务。
以下是该报的一段引文:
对于SGNS和GloVe,值得尝试w+c变量加单词和上下文向量,这是廉价的(不需要再培训),可以带来巨大的收益(以及巨大的损失)。
所以我想你只需要在你的具体任务上试一试。
顺便提一下,这里有一篇关于如何从gensim:链接获取上下文向量的文章
https://stackoverflow.com/questions/46889727
复制相似问题