是否有一个库或数据库可以检测自然文本的主题?
我不是要从提取的关键字中生成主题,而是要分析使用过的词汇表,并将其与预定义的主题匹配。喜欢搜索烹饪或某些运动中使用的单词(如足球俱乐部名称或技术术语)。
澄清的更新:
示例文本片段:一个关于足球的句子,然后另一个句子讨论在活动中的饮食问题。
图书馆可以划分“体育”、“足球”、“烹饪”等类别。
我正在寻找的东西,可以分配这些类别(或“感兴趣的主题”,也许),而我不必培训成千上万的模型与万亿字节的手动分类文件。例如,这可以通过匹配关键字来工作,而不是统计分析(这就是我前面提到的数据库的原因)。
我搜索这个是因为我自己没有足够的人力来建立这么大的数据库。
发布于 2015-06-08 18:01:30
您描述的任务是一个经典的文本文档分类。我建议阅读这篇文章,然后通过已知的关键字搜索。
简而言之,最流行的方法是有监督的机器学习(例如SVM),使用tf-下手于单词,或有时-字n-克。
Scikit-学习教程描述了这个任务;还有一些已经存在的库,比如LibShortText。
对于数据集(比‘数据库’更常见的术语),请查看路透社-21578文本分类集或这里。一般来说,从预定义的类别中收集文本并不难。例如,去新闻网站--也许是专门的网站--比如体育--如果你想把文本按种类分类的话。
有关堆栈过流或奎拉的相关问题,请参见。
发布于 2015-06-09 16:33:20
有多种方法来解决这个问题,而围绕这个问题的基本主题是语义Web领域。
如果你想让我详细说明的话,请告诉我
最佳安吉
https://stackoverflow.com/questions/30712526
复制相似问题