我有数百万短(最多30字)的文档,我需要将它们分成几个已知的类别。文档有可能匹配多个类别(很少,但也有可能)。文档也有可能与任何类别都不匹配(也很少)。我还有数以百万计的文档已经被分类。我应该使用什么算法来完成这项工作。我不需要做的很快。我需要确保算法分类正确(尽可能)。
我应该使用什么算法?在C#中有in的实现吗?
谢谢你的帮助!
发布于 2010-10-08 21:17:16
还可以查看term frequency and inverse document frequency cosine similarity,查找重要的单词来创建类别,并根据相似度将文档分配到类别
编辑:
找到一个示例here
发布于 2010-10-08 21:46:49
有趣的文章:
发布于 2010-10-09 02:54:45
这里的主要问题是文档的长度。我想我会称之为短语分类,因为twitter的事情,这方面的工作正在进行中。您可以引入额外的文本,对这30个单词执行网络搜索,然后分析最匹配的单词。有一篇关于这方面的论文,但我现在找不到。然后,我将尝试使用特征向量法(如Jimmy的答案中的tdf-idf)和多类支持向量机进行分类。
https://stackoverflow.com/questions/3890734
复制相似问题