首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >主要的基于分布语义的算法是什么?

主要的基于分布语义的算法是什么?
EN

Data Science用户
提问于 2018-08-24 10:49:53
回答 1查看 80关注 0票数 1

我知道LSI、RRI和word嵌入是分布式语义模型。但是,我不确定上面提到的是否也是分布语义模型。

  • 非负张量分解
  • 奇异值分解(SVD)
  • 向量空间模型

请告诉我,上述算法是否也是分布式语义模型。此外,还请让我知道其他基于分布语义的算法。

EN

回答 1

Data Science用户

发布于 2018-09-04 21:33:25

The这里的主要思想是:“物以类聚”,也就是说,出现在彼此附近的单词说明了单词的“功能”。

更重要的是,我认为你提到的技术是“方法”,而不是“模型”。原因是,如果没有适当的数据预处理,似乎有可能违反分布语义模型的定义。

例如,SVD通常是一种降维技术,或者根据特征工程和方法的使用情况,将预游标转换成聚类技术。在这种情况下,如果你在统计文档中单词的共现-- rows = document,cols = word,call =#那个单词出现在特定文档中的次数--然后对此运行SVD,您可能会得到一个“模型”的预游标,这个模型可能最终会被称为分布式语义。

另一个例子可以是Word2Vec,它通常使用神经网络来训练浅层,并提取权重。Word2Vec可以通过跳格或连续的单词袋进行训练.由于一个词的“意义”来源于相邻词的共现和/或邻近,所以它可以被认为是一个分布语义模型。FastText可能更加如此,因为它显式地使用文档中的单词分布来执行类似的向量操作。

潜在的Dirichlet分配可能是另一个例子。如果以适当的方式使用,也许甚至是幼稚的Bayes。

<#>So最终的答案是,它取决于数据预处理/特性工程和使用,而不是技术。

票数 1
EN
页面原文内容由Data Science提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://datascience.stackexchange.com/questions/37388

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档