我正在做这个项目,其中我们有一些类别,比如
美容活动购物
类别是有标签的,例如,一些标签是:
Beauty => Haircut, spa, manicure, personal trainer
Activities => personal trainer, biking
Shopping => Jewelery, Shirts, Socks标签具有顺序,其表示它们与类别的相关性,例如,美发在美容中排在第一位,因为其中包含单词美发的文本最有可能与美容相关,
正如你所看到的,“私人教练”标签属于多个类别,所以如果文本中有私人教练,它可能与美容或活动相关。
我还记录了每个标记在文本中被找到的次数,因此每个标记都有一个在其中找到的值。
现在,当要处理新文本时,我会搜索其中的所有标记,并查看它们在给定文本中出现的次数。示例文本的结果将如下所示:
Haircut => 4
personal trainer => 1
manicure => 1
spa => 0看着这一点,我们意识到文本应该属于美。
现在我的问题是: 1-我们如何通过给定的输入和与类别相关联的标签数组来以编程方式确定此文本属于哪个类别?这是个好主意吗?有没有更优雅的方式来做到这一点?
2-这是一个很好的方法还是有更好的算法?我在想,也许像lucene这样的东西或者更智能的算法可以在处理这个问题时发挥作用。
发布于 2011-09-16 10:49:39
如果你可以定义类,那么基于朴素贝叶斯的方法就可以完成这项工作。它是常用的分类器之一。
如果你想让程序自动定义类,目前还没有什么能很好地工作。
https://stackoverflow.com/questions/7437696
复制相似问题