问LSA相似接口
EN

Stack Overflow用户

提问于 2014-12-21 05:47:35

回答 1查看 656关注 0票数 0

我是一个翻译研究的PhD学生，我目前正在写我的论文。本文采用LSA相似接口作为分析方法。我的背景是语言学，而不是计算机科学。我试图找到一个简单的LSA文档分类工具，但我找不到任何。我试着和Gensim一起玩，但我没有工作。我认为我的问题是将我的语料库(txt文件)与Gensim工具链接到一起进行分析(我不知道如何完成这个步骤)。如果有人能帮助我进行分析，或者指导我使用Gensim的任何工具或简单的教程，我将非常感激。

我想要做以下工作:我想应用文档-实体查询从语料库中检索最相关的5个文档到查询文档。

我有15个查询文档
我有一个(150条文本)的语料库，这些文本都是短篇小说。

我绝望了，我犹豫着要在这里发表这个问题。我确信，将LSA应用于翻译研究将增加这一领域，这使我更加坚持不懈地寻找一种方法来做我的分析。

lsa

latent-semantic-indexing

latent-semantic-analysis

回答 1

Stack Overflow用户

发布于 2014-12-28 11:18:14

目前，对于LSA来说，唯一真正简单、用户友好的工具是http://lsa.colorado.edu/。不幸的是，它只是一个基于网络的工具，它不允许你训练LSA在你自己的公司。但取决于你的需求，这可能并不重要。

如果我对你的理解是正确的，那么你需要文档--15个查询文档和150个短篇小说之间的文档相似性评分(总共有15*150=2250相似分数)。如果这些查询文档和短篇故事是用英语编写的，那么您可以使用LSA的版本，该版本在LSA的许多研究中都使用了TASA语料库，如下所示：

转到http://lsa.colorado.edu/
选择一对多的比较。
复制粘贴“主文本”框中的一个短篇小说，在“文本要比较”框中用空行分隔15个查询。
重复你的每一个短篇故事。巨大的痛苦？是。但如果你绝望了..。

如果您用Python或R编写一些程序，那么用于LSA的其他工具包括http://clic.cimec.unitn.it/composes/toolkit/introduction.html和http://cran.r-project.org/web/packages/lsa/lsa.pdf，并将为您节省上述建议的手工操作。另外，我知道您已经尝试过Gensim，但是在http://radimrehurek.com/gensim/tutorial.html上有一个很好的教程，如果您还没有这样做的话，您可以尝试使用它。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/27587059

复制

相似问题

问LSA相似接口
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问LSA相似接口EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问LSA相似接口
EN