我有电子产品目录。我已经在一个SQL DB的字段/列,如标题,Mfg部件Nr,UPC等。然后我爬行通过外部网站,列出电子产品,例如亚马逊。在大多数情况下,这会导致一些HTML文本,但我可以找出标题,例如。我需要比较一下这个HTML文本(外部网站上网页的结果)是否描述了我的产品。
我知道这种比较是不准确的,也就是说,我不期望这100%的时间是正确的。有这样的事吗?
虽然很难提供一个完整的例子,但让我们将比较限制在两个产品的标题上。
标题I: Motorola MH230R便携-双向无线电- FRS/GMRS 22-通道-黄色(3包)
亚马逊的标题:摩托罗拉MH230TPR巨型可接收双向无线电3包,FRS/GMRS
它们代表着同样的产品。有没有办法确定它们是否相似/相同?简单的文本比较是行不通的。
如果有解决这个问题的工具,那就太好了。如果没有的话,我会很感激这个算法或者一些我可以用来进一步研究这个领域的指针。
我了解C#和Java。我在数值分析方面使用了一些人工智能/神经网络--特别是反向传播和遗传算法--来比较图像和寻找最佳点。然而,我不知道如何处理文本数据。
如果这个问题不清楚,请告诉我,我会尽量澄清我的描述。谢谢你们所有人。
发布于 2013-05-06 17:22:45
当然,有很多算法处理字符串中的文本相似度和距离度量(对于他们的短名单看维基百科)。以下是如何更具体地处理这个问题的一些想法:
通常,如果您设法将有关此类字符串的知识放入您编写的代码中,而不是使用一般方法,则会得到更好的结果.但既然你来自人工智能/神经网络背景..。如果您为输入字符串生成有用的描述符,您可以通过机器学习技术找到使字符串类似的方法。为此,您需要一个已经正确分配的产品字符串的足够大的基础。
但也许你需要一些很简单的东西?然后查看协议
https://stackoverflow.com/questions/16403624
复制相似问题