几周前,我向问题相似询问了这个问题,但我没有正确地提出这个问题。因此,我在这里重新提出了更多的细节问题,我想得到一个更面向人工智能的答案。
我有一个清单,代表的产品或多或少是一样的。例如,在下面的列表中,它们都是希捷硬盘驱动器。
对于人类来说,硬盘3和5是一样的。我们可以更进一步,假设产品1、3、4和5是相同的,并将产品2和6放入其他类别。
在我之前的问题中,有人建议我使用特征提取。当我们有一个小型的预定义描述数据集(所有硬盘驱动器)时,它工作得很好,但是所有其他类型的描述呢?我不想开始为我的应用程序可能面对的所有描述编写基于regex的特性提取器,它不缩放。,有什么机器学习算法可以帮助我做到这一点吗?我可以得到的描述范围很广,在第1行,它可以是冰箱,然后在下一行,硬盘驱动器。我应该试着走神经网络的道路吗?我的输入应该是什么?
谢谢你的帮助!
发布于 2009-04-13 18:50:47
我想看看一些贝叶斯分类方法。这将涉及到训练分类器来识别特定的单词,以表示产品属于您的一个类的概率。例如,在接受培训后,它可以认识到,如果产品描述中有“希捷”,则99%的可能性是硬盘,而如果有“马自达”,则97%的可能性是汽车。像“新”这样的词可能最终对任何分类都没有多大贡献,这就是你希望它工作的方式。
这样做的缺点是,它通常需要相当大的培训数据才能开始正常工作,但你可以设置它,以便它在生产过程中继续修改其百分比(如果你注意到它不正确地分类),它最终会变得非常有效。
贝叶斯技术最近在垃圾邮件过滤应用程序中被大量使用,因此阅读一下它在那里使用的方式可能会更好。
发布于 2009-04-13 18:34:04
您应该同时查看聚类和分类。您的类别似乎是开放式的,因此表明集群可能更适合这个问题。至于输入表示,您可以尝试提取单词和字符N克。您的相似性度量可能是普通n克( 更复杂的东西 )的计数。您可能需要手动标记生成的群集。
https://stackoverflow.com/questions/744801
复制相似问题