我是一个翻译研究的PhD学生,我目前正在写我的论文。本文采用LSA相似接口作为分析方法。我的背景是语言学,而不是计算机科学。我试图找到一个简单的LSA文档分类工具,但我找不到任何。我试着和Gensim一起玩,但我没有工作。我认为我的问题是将我的语料库(txt文件)与Gensim工具链接到一起进行分析(我不知道如何完成这个步骤)。如果有人能帮助我进行分析,或者指导我使用Gensim的任何工具或简单的教程,我将非常感激。
我想要做以下工作:我想应用文档-实体查询从语料库中检索最相关的5个文档到查询文档。
我绝望了,我犹豫着要在这里发表这个问题。我确信,将LSA应用于翻译研究将增加这一领域,这使我更加坚持不懈地寻找一种方法来做我的分析。
发布于 2014-12-28 11:18:14
目前,对于LSA来说,唯一真正简单、用户友好的工具是http://lsa.colorado.edu/。不幸的是,它只是一个基于网络的工具,它不允许你训练LSA在你自己的公司。但取决于你的需求,这可能并不重要。
如果我对你的理解是正确的,那么你需要文档--15个查询文档和150个短篇小说之间的文档相似性评分(总共有15*150=2250相似分数)。如果这些查询文档和短篇故事是用英语编写的,那么您可以使用LSA的版本,该版本在LSA的许多研究中都使用了TASA语料库,如下所示:
如果您用Python或R编写一些程序,那么用于LSA的其他工具包括http://clic.cimec.unitn.it/composes/toolkit/introduction.html和http://cran.r-project.org/web/packages/lsa/lsa.pdf,并将为您节省上述建议的手工操作。另外,我知道您已经尝试过Gensim,但是在http://radimrehurek.com/gensim/tutorial.html上有一个很好的教程,如果您还没有这样做的话,您可以尝试使用它。
https://stackoverflow.com/questions/27587059
复制相似问题