首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何识别像电影或传记这样的文档类别

如何识别像电影或传记这样的文档类别
EN

Stack Overflow用户
提问于 2016-08-04 08:55:03
回答 1查看 127关注 0票数 1

目前,我正在运行一项任务,将一些文档分类为一些预定义的类集。为此,我依赖多项朴素贝叶斯,它可以很好地工作在大多数类别,如棒球,体育或空间。

然而,我怎样才能找到一些类别的文章,比如电影或一些人的传记?多国旅主要运行在纸袋行话的方法。这就是为什么很容易发现棒球文章,因为它们会包含很多棒球术语。然而,电影或传记文章中的行话却少得多。电影文档描述电影,或评论它,只使用特定于该电影的单词。因此,一篇关于“好人”的文章可能包含很多法律术语,这可能会导致不经意间将其贴上“法律”的标签。与传记一样,它只描述了一个人的生活。

这类文件如何分类?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-08-04 11:02:54

一个很好的解决方案是使用(实体识别)和半监督方法()。例如,您在句子中标记了参与者的名称(使用实体提取半监督方法,检查),并获取特定实体的计数(例如:在句子中重复的参与者(我们的实体)数量越多,句子与电影的关联就越多)。然后将其添加到一个特性中,这样它对于分类器来说可能是有代表性和重要的,尝试从数据集中找到这些特性,并向分类器提供以下内容

您可以使用Chi2ANOVA F值这样的度量来检查任何附加功能的有效性和影响。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/38762792

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档