首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >文本分类

文本分类
EN

Stack Overflow用户
提问于 2011-11-15 12:57:53
回答 3查看 5.9K关注 0票数 6

我正在研究一个文本分类问题,我试图将一个词集合分类,是的,有很多图书馆可以分类,所以如果你建议使用它们,请不要回答。

让我解释一下我想实现什么。(例如)

文字清单:

  1. java
  2. programming
  3. language
  4. c-sharp

类别清单。

  1. java
  2. c-sharp

在这里,我们将训练这套设备,如:

java

  • programming映射到类别1.java

  • programming映射到类别2.c-sharp

  • language映射到类别1.java

  • language映射到类别2.c-sharp

  • c-sharp映射到2.c-sharp

现在,我们有了一个短语“最佳java编程书”,从给定的短语中,以下单词与我们的“单词列表”相匹配:

  1. java
  2. programming

“编程”有两个映射类别"java“和"c-sharp”,因此它是一个常见的词。

"java“仅映射到类别"java”。

因此,短语的匹配类别是"java“。

这就是我所想到的,这个解决方案好吗?它能被执行吗?你的建议是什么?我遗漏的任何东西,缺陷等等。

EN

回答 3

Stack Overflow用户

回答已采纳

发布于 2011-11-15 13:06:09

当然这是可以实现的。如果你在正确的数据集上训练一个朴素的贝叶斯分类器或线性支持向量机(我猜是Java和C#编程书籍的标题),它应该学会将" C#“和".NET”与C#联系起来,并将“编程”与两者联系起来。也就是说,如果数据集平均分配,一个朴素的Bayes分类器可能会对诸如“编程”这样的常见术语学习大约均匀的Java或C#概率。

票数 4
EN

Stack Overflow用户

发布于 2011-11-15 15:22:23

实现这一点的一个非常简单的方法是使用直接的Lucene (或任何文本索引引擎)。使用所有的"java“示例创建一个Lucene文档,用"c#”示例创建另一个文档,并将两者都添加到索引中。若要对新文档进行分类,或文档中的所有术语并对索引执行查询,则获取得分最高的类别。

票数 1
EN

Stack Overflow用户

发布于 2011-11-15 13:14:40

如果可能的话,可以阅读书中名为“编程集体智能”的章节“文档过滤”中的“天真分类器”一节。虽然这些例子都是Python的,但我希望这不会给您带来太大的麻烦。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/8136677

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档