首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本分类算法

文本分类算法
EN

Stack Overflow用户
提问于 2010-10-08 21:04:35
回答 5查看 6.4K关注 0票数 4

我有数百万短(最多30字)的文档,我需要将它们分成几个已知的类别。文档有可能匹配多个类别(很少,但也有可能)。文档也有可能与任何类别都不匹配(也很少)。我还有数以百万计的文档已经被分类。我应该使用什么算法来完成这项工作。我不需要做的很快。我需要确保算法分类正确(尽可能)。

我应该使用什么算法?在C#中有in的实现吗?

谢谢你的帮助!

EN

回答 5

Stack Overflow用户

回答已采纳

发布于 2010-10-08 21:17:16

还可以查看term frequency and inverse document frequency cosine similarity,查找重要的单词来创建类别,并根据相似度将文档分配到类别

编辑:

找到一个示例here

票数 7
EN

Stack Overflow用户

发布于 2010-10-08 21:46:49

有趣的文章:

  • A self-organizing semantic map for information retrieval
  • WEBSOM - self-organizing maps of document collections
票数 1
EN

Stack Overflow用户

发布于 2010-10-09 02:54:45

这里的主要问题是文档的长度。我想我会称之为短语分类,因为twitter的事情,这方面的工作正在进行中。您可以引入额外的文本,对这30个单词执行网络搜索,然后分析最匹配的单词。有一篇关于这方面的论文,但我现在找不到。然后,我将尝试使用特征向量法(如Jimmy的答案中的tdf-idf)和多类支持向量机进行分类。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/3890734

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档