我有一个Java应用程序,我希望在其中实时确定给定的一段文本是否正在讨论作为查询提供的主题。
我为此研究过的一些技术是使用诸如open-nlp和Stanford-NLP coref检测之类的包进行共引用检测,但这些模型需要极长的时间才能加载,并且在生产应用程序环境中似乎不实用。是否可以执行共指分析,使得给定一段文本和一个主题,我可以得到一个布尔答案,即该文本正在讨论该主题?
除了需要经过训练的语料库的文档分类之外,还有没有其他技术可以帮助我实现这一点?
发布于 2014-06-13 16:26:27
我建议你去看看Weka。它是用Java编写的,所以可以很好地适应您的环境,更快地满足您的需求,有很多工具,并带有UI和API。如果您正在研究无监督方法(这是一种不使用预先分类的语料库进行任何学习的方法),这里有一篇有趣的论文:http://www.newdesign.aclweb.org/anthology/C/C00/C00-1066.pdf
你也可以在Google上搜索“无监督文本分类/信息检索”。你会得到很多方法。你可以选择你觉得最简单的一个。
发布于 2020-08-09 17:51:52
对于每个主题(如果它们是预定义的),您可以创建术语列表,并为每个句子检查句子和每个主题列表的余弦相似度,并向用户显示最接近的主题
https://stackoverflow.com/questions/24197039
复制相似问题