首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >LSA相似接口

LSA相似接口
EN

Stack Overflow用户
提问于 2014-12-21 05:47:35
回答 1查看 656关注 0票数 0

我是一个翻译研究的PhD学生,我目前正在写我的论文。本文采用LSA相似接口作为分析方法。我的背景是语言学,而不是计算机科学。我试图找到一个简单的LSA文档分类工具,但我找不到任何。我试着和Gensim一起玩,但我没有工作。我认为我的问题是将我的语料库(txt文件)与Gensim工具链接到一起进行分析(我不知道如何完成这个步骤)。如果有人能帮助我进行分析,或者指导我使用Gensim的任何工具或简单的教程,我将非常感激。

我想要做以下工作:我想应用文档-实体查询从语料库中检索最相关的5个文档到查询文档。

  1. 我有15个查询文档
  2. 我有一个(150条文本)的语料库,这些文本都是短篇小说。

我绝望了,我犹豫着要在这里发表这个问题。我确信,将LSA应用于翻译研究将增加这一领域,这使我更加坚持不懈地寻找一种方法来做我的分析。

EN

回答 1

Stack Overflow用户

发布于 2014-12-28 11:18:14

目前,对于LSA来说,唯一真正简单、用户友好的工具是http://lsa.colorado.edu/。不幸的是,它只是一个基于网络的工具,它不允许你训练LSA在你自己的公司。但取决于你的需求,这可能并不重要。

如果我对你的理解是正确的,那么你需要文档--15个查询文档和150个短篇小说之间的文档相似性评分(总共有15*150=2250相似分数)。如果这些查询文档和短篇故事是用英语编写的,那么您可以使用LSA的版本,该版本在LSA的许多研究中都使用了TASA语料库,如下所示:

  • 转到http://lsa.colorado.edu/
  • 选择一对多的比较。
  • 复制粘贴“主文本”框中的一个短篇小说,在“文本要比较”框中用空行分隔15个查询。
  • 重复你的每一个短篇故事。巨大的痛苦?是。但如果你绝望了..。

如果您用Python或R编写一些程序,那么用于LSA的其他工具包括http://clic.cimec.unitn.it/composes/toolkit/introduction.htmlhttp://cran.r-project.org/web/packages/lsa/lsa.pdf,并将为您节省上述建议的手工操作。另外,我知道您已经尝试过Gensim,但是在http://radimrehurek.com/gensim/tutorial.html上有一个很好的教程,如果您还没有这样做的话,您可以尝试使用它。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/27587059

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档