首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何自动将给定的文本分配到不同的类别?

如何自动将给定的文本分配到不同的类别?
EN

Stack Overflow用户
提问于 2011-09-16 05:33:38
回答 1查看 649关注 0票数 0

我正在做这个项目,其中我们有一些类别,比如

美容活动购物

类别是有标签的,例如,一些标签是:

代码语言:javascript
复制
Beauty => Haircut, spa, manicure, personal trainer
Activities => personal trainer, biking
Shopping => Jewelery, Shirts, Socks

标签具有顺序,其表示它们与类别的相关性,例如,美发在美容中排在第一位,因为其中包含单词美发的文本最有可能与美容相关,

正如你所看到的,“私人教练”标签属于多个类别,所以如果文本中有私人教练,它可能与美容或活动相关。

我还记录了每个标记在文本中被找到的次数,因此每个标记都有一个在其中找到的值。

现在,当要处理新文本时,我会搜索其中的所有标记,并查看它们在给定文本中出现的次数。示例文本的结果将如下所示:

代码语言:javascript
复制
Haircut => 4
personal trainer => 1
manicure => 1
spa => 0

看着这一点,我们意识到文本应该属于美。

现在我的问题是: 1-我们如何通过给定的输入和与类别相关联的标签数组来以编程方式确定此文本属于哪个类别?这是个好主意吗?有没有更优雅的方式来做到这一点?

2-这是一个很好的方法还是有更好的算法?我在想,也许像lucene这样的东西或者更智能的算法可以在处理这个问题时发挥作用。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2011-09-16 10:49:39

如果你可以定义类,那么基于朴素贝叶斯的方法就可以完成这项工作。它是常用的分类器之一。

如果你想让程序自动定义类,目前还没有什么能很好地工作。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/7437696

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档