开发者社区

文档建议反馈控制台

文章/答案/技术大牛

发布

社区首页 >问答首页 >lsi问题

问lsi问题
EN

Stack Overflow用户

提问于 2010-01-20 22:34:36

回答 2查看 196关注 0票数 2

我使用潜在的语义分析来实现文本的相似性。我有两个问题。

如何选择K值进行降维？
我在LSI工作的每一个地方都读过很多相似的词，比如汽车和汽车。怎么可能？我错过了什么神奇的一步？

latent-semantic-indexing

EN

回答 2

Stack Overflow用户

发布于 2011-03-31 22:29:09

K的典型选择是300。理想情况下，您基于使用约简向量的评估度量来设置k。例如，如果您是聚类文档，您可以选择k来最大化集群解决方案的得分。如果您没有一个基准来衡量，那么我将根据您的数据集的大小来设置k。如果您只有100个文档，那么就不需要几百个潜在的因素来表示它们。同样，如果您有100万份文档，那么300可能太小了。然而，在我的经验中，如果k不是太小(即k= 300和k=1000一样)，则得到的向量对于k中的大变化是相当健壮的。
您可能会将LSI与潜在语义分析 (LSA)混淆。它们是非常相关的技术，不同的是LSI对文档进行操作，LSA对单词进行操作。两种方法都使用相同的输入(术语x文档矩阵)。如果您想尝试一下，有几个很好的开源LSA实现。LSA维基百科页面有一个全面的列表。

票数 1

EN

Stack Overflow用户

发布于 2010-07-05 04:13:36

尝试一下1.n中的几个不同的值，看看什么对你想要完成的任务有效
创建一个字字相关矩阵，即单元格(i，j)保存(i，j)共现的文档#，并在其上使用类似PCA的内容。

票数 0

EN

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/2105553

复制

相似问题