首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >产品分类算法?采取2

产品分类算法?采取2
EN

Stack Overflow用户
提问于 2009-04-13 17:58:37
回答 2查看 2.9K关注 0票数 15

几周前,我向问题相似询问了这个问题,但我没有正确地提出这个问题。因此,我在这里重新提出了更多的细节问题,我想得到一个更面向人工智能的答案。

我有一个清单,代表的产品或多或少是一样的。例如,在下面的列表中,它们都是希捷硬盘驱动器。

  1. 希捷硬盘500
  2. 希捷电脑硬盘120 for
  3. 希捷梭鱼7200.12 ST3500418AS 500 RPM 7200 RPM SATA3.0Gb/s硬盘
  4. 希捷新的500 New硬盘驱动器
  5. 希捷梭鱼7200.12
  6. 希捷FreeAgent书桌500外部硬盘驱动器银7200 Desk USB2.0零售
  7. GE航天起搏器
  8. Mazda3 2010
  9. Mazda3 2009 2.3L

对于人类来说,硬盘3和5是一样的。我们可以更进一步,假设产品1、3、4和5是相同的,并将产品2和6放入其他类别。

在我之前的问题中,有人建议我使用特征提取。当我们有一个小型的预定义描述数据集(所有硬盘驱动器)时,它工作得很好,但是所有其他类型的描述呢?我不想开始为我的应用程序可能面对的所有描述编写基于regex的特性提取器,它不缩放。,有什么机器学习算法可以帮助我做到这一点吗?我可以得到的描述范围很广,在第1行,它可以是冰箱,然后在下一行,硬盘驱动器。我应该试着走神经网络的道路吗?我的输入应该是什么?

谢谢你的帮助!

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-04-13 18:50:47

我想看看一些贝叶斯分类方法。这将涉及到训练分类器来识别特定的单词,以表示产品属于您的一个类的概率。例如,在接受培训后,它可以认识到,如果产品描述中有“希捷”,则99%的可能性是硬盘,而如果有“马自达”,则97%的可能性是汽车。像“新”这样的词可能最终对任何分类都没有多大贡献,这就是你希望它工作的方式。

这样做的缺点是,它通常需要相当大的培训数据才能开始正常工作,但你可以设置它,以便它在生产过程中继续修改其百分比(如果你注意到它不正确地分类),它最终会变得非常有效。

贝叶斯技术最近在垃圾邮件过滤应用程序中被大量使用,因此阅读一下它在那里使用的方式可能会更好。

票数 9
EN

Stack Overflow用户

发布于 2009-04-13 18:34:04

您应该同时查看聚类分类。您的类别似乎是开放式的,因此表明集群可能更适合这个问题。至于输入表示,您可以尝试提取单词和字符N克。您的相似性度量可能是普通n克( 更复杂的东西 )的计数。您可能需要手动标记生成的群集。

票数 9
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/744801

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档