首页
学习
活动
专区
圈层
工具
发布

lsi问题
EN

Stack Overflow用户
提问于 2010-01-20 22:34:36
回答 2查看 196关注 0票数 2

我使用潜在的语义分析来实现文本的相似性。我有两个问题。

  1. 如何选择K值进行降维?
  2. 我在LSI工作的每一个地方都读过很多相似的词,比如汽车和汽车。怎么可能?我错过了什么神奇的一步?
EN

回答 2

Stack Overflow用户

发布于 2011-03-31 22:29:09

  1. K的典型选择是300。理想情况下,您基于使用约简向量的评估度量来设置k。例如,如果您是聚类文档,您可以选择k来最大化集群解决方案的得分。如果您没有一个基准来衡量,那么我将根据您的数据集的大小来设置k。如果您只有100个文档,那么就不需要几百个潜在的因素来表示它们。同样,如果您有100万份文档,那么300可能太小了。然而,在我的经验中,如果k不是太小(即k= 300和k=1000一样),则得到的向量对于k中的大变化是相当健壮的。
  2. 您可能会将LSI与潜在语义分析 (LSA)混淆。它们是非常相关的技术,不同的是LSI对文档进行操作,LSA对单词进行操作。两种方法都使用相同的输入(术语x文档矩阵)。如果您想尝试一下,有几个很好的开源LSA实现。LSA维基百科页面有一个全面的列表。
票数 1
EN

Stack Overflow用户

发布于 2010-07-05 04:13:36

  1. 尝试一下1.n中的几个不同的值,看看什么对你想要完成的任务有效
  2. 创建一个字字相关矩阵,即单元格(i,j)保存(i,j)共现的文档#,并在其上使用类似PCA的内容。
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/2105553

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档