首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >负面因素如何影响gensim中的模型性能?

负面因素如何影响gensim中的模型性能?
EN

Stack Overflow用户
提问于 2017-12-13 12:41:03
回答 1查看 230关注 0票数 1

我正在看报纸

单词和短语的分布式表示及其组合性。

这非常有趣,但我真的很好奇参数‘负’和最终性能之间的关系。我个人认为,随着负值的增加,最终的表现可能会变得更好。因为我们用来进行比较的负样本越多,我们在理论上应该会得到更好的结果。当然,在某些点之前,性能不会变得更好。我说的对吗?

EN

回答 1

Stack Overflow用户

发布于 2017-12-14 03:09:09

更多的负面例子意味着更多的模型调整正在发生,每个“目标”单词都在训练-示例。因此,随着更多的工作完成,该模型可能会出于某些目的而有所改进。

但是这些额外的计算需要更多的训练时间-因此增加该参数的价值可以与其他选择进行权衡,这也可能提供以训练时间为代价的改进。例如,增加window或语料库上的训练迭代次数也可以以时间为代价来改进模型。

有趣的是,更多的负面例子倾向于偏向大多数单词的坐标位置,这意味着向量的“云”不以原点为中心。而且,最近至少有一篇论文提出了消除这种偏见的最后一步-变换最终坐标以恢复原点的全局平均值-可以提高单词向量在某些任务中的效用。

此外,最初的Word2Vec论文指出,对于大型语料库,较少的负面例子可能就足够或最优了。'Distributed Representations of Words and Phrases and their Compositionality'的第2.2节指出,“我们的实验表明,5-20范围内的k值对于小的训练数据集是有用的,而对于大型数据集,k可以小到2-5。”(我甚至在一个大型语料库中看到了可以接受的结果,只有一个负面的例子。)

因此,值得尝试不同的negative值,并且有一些理由相信更多的例子可以有所帮助,但这并不一定是“越多越好”的情况,特别是在语料库更大的情况下,更少的负面例子可能就足够了,甚至是最优的。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/47785599

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档