首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >在自然文本中检测(预定义)主题

在自然文本中检测(预定义)主题
EN

Stack Overflow用户
提问于 2015-06-08 14:57:22
回答 2查看 1.3K关注 0票数 4

是否有一个库或数据库可以检测自然文本的主题?

我不是要从提取的关键字中生成主题,而是要分析使用过的词汇表,并将其与预定义的主题匹配。喜欢搜索烹饪或某些运动中使用的单词(如足球俱乐部名称或技术术语)。

澄清的更新:

示例文本片段:一个关于足球的句子,然后另一个句子讨论在活动中的饮食问题。

图书馆可以划分“体育”、“足球”、“烹饪”等类别。

我正在寻找的东西,可以分配这些类别(或“感兴趣的主题”,也许),而我不必培训成千上万的模型与万亿字节的手动分类文件。例如,这可以通过匹配关键字来工作,而不是统计分析(这就是我前面提到的数据库的原因)。

我搜索这个是因为我自己没有足够的人力来建立这么大的数据库。

EN

回答 2

Stack Overflow用户

发布于 2015-06-08 18:01:30

您描述的任务是一个经典的文本文档分类。我建议阅读这篇文章,然后通过已知的关键字搜索。

简而言之,最流行的方法是有监督的机器学习(例如SVM),使用tf-下手于单词,或有时-字n-克。

Scikit-学习教程描述了这个任务;还有一些已经存在的库,比如LibShortText

对于数据集(比‘数据库’更常见的术语),请查看路透社-21578文本分类集这里。一般来说,从预定义的类别中收集文本并不难。例如,去新闻网站--也许是专门的网站--比如体育--如果你想把文本按种类分类的话。

有关堆栈过流奎拉的相关问题,请参见。

票数 0
EN

Stack Overflow用户

发布于 2015-06-09 16:33:20

有多种方法来解决这个问题,而围绕这个问题的基本主题是语义Web领域。

  1. 使用像dbpedia这样的知识库,dbpedia本质上就是三重格式的wikipedia数据(subject谓词对象)。使用谓词- rdfs:label使用sparql查询dbpedia,如果令牌是dbpedia的一部分,这将返回一个URI,而名为dcterms:subject的谓词将具有与该主题相关的类别。您可能需要遍历三层存储以获得更抽象的关系。类似的知识库- ConceptNet,免费库,雅戈。
  2. 检查,http://www.cyc.com/

如果你想让我详细说明的话,请告诉我

最佳安吉

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/30712526

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档