目前,我正在运行一项任务,将一些文档分类为一些预定义的类集。为此,我依赖多项朴素贝叶斯,它可以很好地工作在大多数类别,如棒球,体育或空间。
然而,我怎样才能找到一些类别的文章,比如电影或一些人的传记?多国旅主要运行在纸袋行话的方法。这就是为什么很容易发现棒球文章,因为它们会包含很多棒球术语。然而,电影或传记文章中的行话却少得多。电影文档描述电影,或评论它,只使用特定于该电影的单词。因此,一篇关于“好人”的文章可能包含很多法律术语,这可能会导致不经意间将其贴上“法律”的标签。与传记一样,它只描述了一个人的生活。
这类文件如何分类?
发布于 2016-08-04 11:02:54
一个很好的解决方案是使用(实体识别)和半监督方法()。例如,您在句子中标记了参与者的名称(使用实体提取半监督方法,检查这),并获取特定实体的计数(例如:在句子中重复的参与者(我们的实体)数量越多,句子与电影的关联就越多)。然后将其添加到一个特性中,这样它对于分类器来说可能是有代表性和重要的,尝试从数据集中找到这些特性,并向分类器提供以下内容
您可以使用Chi2或ANOVA F值这样的度量来检查任何附加功能的有效性和影响。
https://stackoverflow.com/questions/38762792
复制相似问题