我正在研究一个文本分类问题,我试图将一个词集合分类,是的,有很多图书馆可以分类,所以如果你建议使用它们,请不要回答。
让我解释一下我想实现什么。(例如)
文字清单:
类别清单。
在这里,我们将训练这套设备,如:
java
现在,我们有了一个短语“最佳java编程书”,从给定的短语中,以下单词与我们的“单词列表”相匹配:
“编程”有两个映射类别"java“和"c-sharp”,因此它是一个常见的词。
"java“仅映射到类别"java”。
因此,短语的匹配类别是"java“。
这就是我所想到的,这个解决方案好吗?它能被执行吗?你的建议是什么?我遗漏的任何东西,缺陷等等。
发布于 2011-11-15 13:06:09
当然这是可以实现的。如果你在正确的数据集上训练一个朴素的贝叶斯分类器或线性支持向量机(我猜是Java和C#编程书籍的标题),它应该学会将" C#“和".NET”与C#联系起来,并将“编程”与两者联系起来。也就是说,如果数据集平均分配,一个朴素的Bayes分类器可能会对诸如“编程”这样的常见术语学习大约均匀的Java或C#概率。
发布于 2011-11-15 15:22:23
实现这一点的一个非常简单的方法是使用直接的Lucene (或任何文本索引引擎)。使用所有的"java“示例创建一个Lucene文档,用"c#”示例创建另一个文档,并将两者都添加到索引中。若要对新文档进行分类,或文档中的所有术语并对索引执行查询,则获取得分最高的类别。
发布于 2011-11-15 13:14:40
如果可能的话,可以阅读书中名为“编程集体智能”的章节“文档过滤”中的“天真分类器”一节。虽然这些例子都是Python的,但我希望这不会给您带来太大的麻烦。
https://stackoverflow.com/questions/8136677
复制相似问题