文章/答案/技术大牛

发布

社区首页 >问答首页 >在自然文本中检测(预定义)主题

问在自然文本中检测(预定义)主题
EN

Stack Overflow用户

提问于 2015-06-08 14:57:22

回答 2查看 1.3K关注 0票数 4

是否有一个库或数据库可以检测自然文本的主题？

我不是要从提取的关键字中生成主题，而是要分析使用过的词汇表，并将其与预定义的主题匹配。喜欢搜索烹饪或某些运动中使用的单词(如足球俱乐部名称或技术术语)。

澄清的更新：

示例文本片段:一个关于足球的句子，然后另一个句子讨论在活动中的饮食问题。

图书馆可以划分“体育”、“足球”、“烹饪”等类别。

我正在寻找的东西，可以分配这些类别(或“感兴趣的主题”，也许)，而我不必培训成千上万的模型与万亿字节的手动分类文件。例如，这可以通过匹配关键字来工作，而不是统计分析(这就是我前面提到的数据库的原因)。

我搜索这个是因为我自己没有足够的人力来建立这么大的数据库。

nlp

text-classification

information-extraction

回答 2

Stack Overflow用户

发布于 2015-06-08 18:01:30

您描述的任务是一个经典的文本文档分类。我建议阅读这篇文章，然后通过已知的关键字搜索。

简而言之，最流行的方法是有监督的机器学习(例如SVM)，使用tf-下手于单词，或有时-字n-克。

Scikit-学习教程描述了这个任务；还有一些已经存在的库，比如LibShortText。

对于数据集(比‘数据库’更常见的术语)，请查看路透社-21578文本分类集或这里。一般来说，从预定义的类别中收集文本并不难。例如，去新闻网站--也许是专门的网站--比如体育--如果你想把文本按种类分类的话。

有关堆栈过流或奎拉的相关问题，请参见。

票数 0

Stack Overflow用户

发布于 2015-06-09 16:33:20

有多种方法来解决这个问题，而围绕这个问题的基本主题是语义Web领域。

使用像dbpedia这样的知识库，dbpedia本质上就是三重格式的wikipedia数据(subject谓词对象)。使用谓词- rdfs:label使用sparql查询dbpedia，如果令牌是dbpedia的一部分，这将返回一个URI，而名为dcterms:subject的谓词将具有与该主题相关的类别。您可能需要遍历三层存储以获得更抽象的关系。类似的知识库- ConceptNet，免费库，雅戈。
检查，http://www.cyc.com/

如果你想让我详细说明的话，请告诉我

最佳安吉

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/30712526

复制

相似问题

问在自然文本中检测(预定义)主题
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在自然文本中检测(预定义)主题EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在自然文本中检测(预定义)主题
EN