首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >对LSA的怀疑

对LSA的怀疑
EN

Stack Overflow用户
提问于 2012-01-27 02:53:05
回答 1查看 447关注 0票数 0

我必须在存储库中找到参考文档和文档集之间的相似性。

代码语言:javascript
复制
Method : 

1. I find the term document matrix for all the documents including the reference document 
2. The svd is calculated for this matrix 
3. I take the v array(The third result)
4. I transpose this matrix so that the each row represents a document . 
5. The first row represents the reference document . 
6. I find the cosine similarity beween this row and the rest of the rows 

我的怀疑是:

  1. 因为我的数据库中有大约7个文档,所以我只得到8*8的varray(文档矩阵)。所以,如果我找到与这8个值的余弦相似性,我会得到一个正确的结果吗?
  2. 这种方法是否普遍采用呢?

我使用java来编写这个代码。我利用jama软件包找到svd。

EN

回答 1

Stack Overflow用户

发布于 2012-01-27 05:33:30

  • 我已经尝试了使用Matlab使用TMG工具箱。效果很好。
  • 为了获得更好的结果(或更精确),请使用更大的数据集。
  • 在LSA中,svd是其中的一部分(用于降维)。在计算余弦相似性时,需要最后一个矩阵,这是在计算A=U*S* V^t之后得到的。

您可以阅读LSA 这里的示例。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/9028417

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档