问负面因素如何影响gensim中的模型性能？
EN

Stack Overflow用户

提问于 2017-12-13 12:41:03

回答 1查看 230关注 0票数 1

我正在看报纸

单词和短语的分布式表示及其组合性。

这非常有趣，但我真的很好奇参数‘负’和最终性能之间的关系。我个人认为，随着负值的增加，最终的表现可能会变得更好。因为我们用来进行比较的负样本越多，我们在理论上应该会得到更好的结果。当然，在某些点之前，性能不会变得更好。我说的对吗？

nlp

word2vec

回答 1

Stack Overflow用户

发布于 2017-12-14 03:09:09

更多的负面例子意味着更多的模型调整正在发生，每个“目标”单词都在训练-示例。因此，随着更多的工作完成，该模型可能会出于某些目的而有所改进。

但是这些额外的计算需要更多的训练时间-因此增加该参数的价值可以与其他选择进行权衡，这也可能提供以训练时间为代价的改进。例如，增加window或语料库上的训练迭代次数也可以以时间为代价来改进模型。

有趣的是，更多的负面例子倾向于偏向大多数单词的坐标位置，这意味着向量的“云”不以原点为中心。而且，最近至少有一篇论文提出了消除这种偏见的最后一步-变换最终坐标以恢复原点的全局平均值-可以提高单词向量在某些任务中的效用。

此外，最初的Word2Vec论文指出，对于大型语料库，较少的负面例子可能就足够或最优了。'Distributed Representations of Words and Phrases and their Compositionality'的第2.2节指出，“我们的实验表明，5-20范围内的k值对于小的训练数据集是有用的，而对于大型数据集，k可以小到2-5。”(我甚至在一个大型语料库中看到了可以接受的结果，只有一个负面的例子。)

因此，值得尝试不同的negative值，并且有一些理由相信更多的例子可以有所帮助，但这并不一定是“越多越好”的情况，特别是在语料库更大的情况下，更少的负面例子可能就足够了，甚至是最优的。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/47785599

复制

相似问题

问负面因素如何影响gensim中的模型性能？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问负面因素如何影响gensim中的模型性能？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问负面因素如何影响gensim中的模型性能？
EN