文章/答案/技术大牛

发布

社区首页 >问答首页 >产品分类算法？采取2

问产品分类算法？采取2
EN

Stack Overflow用户

提问于 2009-04-13 17:58:37

回答 2查看 2.9K关注 0票数 15

几周前，我向问题相似询问了这个问题，但我没有正确地提出这个问题。因此，我在这里重新提出了更多的细节问题，我想得到一个更面向人工智能的答案。

我有一个清单，代表的产品或多或少是一样的。例如，在下面的列表中，它们都是希捷硬盘驱动器。

希捷硬盘500
希捷电脑硬盘120 for
希捷梭鱼7200.12 ST3500418AS 500 RPM 7200 RPM SATA3.0Gb/s硬盘
希捷新的500 New硬盘驱动器
希捷梭鱼7200.12
希捷FreeAgent书桌500外部硬盘驱动器银7200 Desk USB2.0零售
GE航天起搏器
Mazda3 2010
Mazda3 2009 2.3L

对于人类来说，硬盘3和5是一样的。我们可以更进一步，假设产品1、3、4和5是相同的，并将产品2和6放入其他类别。

在我之前的问题中，有人建议我使用特征提取。当我们有一个小型的预定义描述数据集(所有硬盘驱动器)时，它工作得很好，但是所有其他类型的描述呢？我不想开始为我的应用程序可能面对的所有描述编写基于regex的特性提取器，它不缩放。，有什么机器学习算法可以帮助我做到这一点吗?我可以得到的描述范围很广，在第1行，它可以是冰箱，然后在下一行，硬盘驱动器。我应该试着走神经网络的道路吗？我的输入应该是什么？

谢谢你的帮助!

algorithm

machine-learning

neural-network

classification

回答 2

Stack Overflow用户

回答已采纳

发布于 2009-04-13 18:50:47

我想看看一些贝叶斯分类方法。这将涉及到训练分类器来识别特定的单词，以表示产品属于您的一个类的概率。例如，在接受培训后，它可以认识到，如果产品描述中有“希捷”，则99%的可能性是硬盘，而如果有“马自达”，则97%的可能性是汽车。像“新”这样的词可能最终对任何分类都没有多大贡献，这就是你希望它工作的方式。

这样做的缺点是，它通常需要相当大的培训数据才能开始正常工作，但你可以设置它，以便它在生产过程中继续修改其百分比(如果你注意到它不正确地分类)，它最终会变得非常有效。

贝叶斯技术最近在垃圾邮件过滤应用程序中被大量使用，因此阅读一下它在那里使用的方式可能会更好。

票数 9

Stack Overflow用户

发布于 2009-04-13 18:34:04

您应该同时查看聚类和分类。您的类别似乎是开放式的，因此表明集群可能更适合这个问题。至于输入表示，您可以尝试提取单词和字符N克。您的相似性度量可能是普通n克( 更复杂的东西 )的计数。您可能需要手动标记生成的群集。

票数 9

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/744801

复制

相似问题

问产品分类算法？采取2
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问产品分类算法？采取2EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问产品分类算法？采取2
EN