我正试着分析报纸“Computing Semantic Relatedness using Wikipedia-based Explicit Semantic Analysis”。
我目前正在处理的系统中描述的一个组件是潜在语义分析和显式语义分析之间的区别。
我一直在写一份文件来封装我的理解,但它有点“拼凑在一起”,来自我不完全理解的资料,所以我想知道我想出的东西是否准确,这里是:
When implementing a process like singular value decomposition (SVD) or Markov
chain Monte Carlo machines, a corpus of documents can be partitioned on the
basis of inherent characteristics and assigned to categories by applying different
weights to the features that constitute each singular data index. In this highdimensional
space it is often difficult to determine the combination of factors
leading to an outcome or result, the variables of interest are “hidden” or latent.
By defining a set of humanly intelligible categories, i.e. Wikipedia article
pages as a basis for comparison [Gabrilovich et al. 2007] have devised a system
whereby the criteria used to distinguish a datum are readily comprehensible,
from the text we note that “semantic analysis is explicit in the sense that we
manipulate manifest concepts grounded in human cognition, rather than ‘latent
concepts’ used by Latent Semantic Analysis”.
With that we have now established Explicit Semantic Analysis in opposition
to Latent Semantic Analysis.这准确吗?
关于这个主题的信息有点稀少。This question表面上处理的是一个类似的问题,虽然不是真的。
发布于 2015-05-14 11:40:19
潜在语义分析和所谓显性语义分析的区别在于所使用的语料库和描述词义的向量的维度。
潜在语义分析从基于文档的词向量开始,它捕捉每个单词与其出现的文档之间的关联,通常带有一个加权函数,例如tf。然后,使用奇异值分解将这些字向量的维数降到(一般) 300。与原始维度(对应于文件)相比,这300个新维度没有直接的解释。因此,它们被称为“潜在的”。然后,LSA可以通过合并文本中所有的单词向量来对文本进行分类。
从你提到的那篇文章中,我了解到显式语义分析也是一种基于文档的模型:它根据维基百科的文章对单词进行建模。它不同于潜在的语义分析,但是,(a)语料库(维基百科)不能自由选择,(b)不涉及降维。同样,文本中单词的向量可以组合在一起来分类或以其他方式解释文本。
发布于 2015-05-15 09:13:51
一个简单的解释是:
ESA --使用知识库(维基百科)创建倒排索引,将单词映射到内容(即发生在其中的维基百科页面的标题)。然后操作在这个向量表示的词,其中每个单词现在是一个向量的标题,其中0,1在他们。
LSA --使用奇异值分解原理将word-doc矩阵投影到一个级别较低的空间中,从而使word-doc向量表示的点积在任何文档中都不相互发生,但它们与一组类似的词共同发生(例如,在文档中Cat和Car从未协同发生,但在某些文档D_1中可以与Man一起发生,而在其他文档D_2中与Man -发生的Car协同)更高。
https://stackoverflow.com/questions/30233314
复制相似问题