首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >电子产品规范相似文本描述的比较

电子产品规范相似文本描述的比较
EN

Stack Overflow用户
提问于 2013-05-06 17:07:21
回答 1查看 3K关注 0票数 4

我有电子产品目录。我已经在一个SQL DB的字段/列,如标题,Mfg部件Nr,UPC等。然后我爬行通过外部网站,列出电子产品,例如亚马逊。在大多数情况下,这会导致一些HTML文本,但我可以找出标题,例如。我需要比较一下这个HTML文本(外部网站上网页的结果)是否描述了我的产品。

我知道这种比较是不准确的,也就是说,我不期望这100%的时间是正确的。有这样的事吗?

虽然很难提供一个完整的例子,但让我们将比较限制在两个产品的标题上。

标题I: Motorola MH230R便携-双向无线电- FRS/GMRS 22-通道-黄色(3包)

亚马逊的标题:摩托罗拉MH230TPR巨型可接收双向无线电3包,FRS/GMRS

它们代表着同样的产品。有没有办法确定它们是否相似/相同?简单的文本比较是行不通的。

如果有解决这个问题的工具,那就太好了。如果没有的话,我会很感激这个算法或者一些我可以用来进一步研究这个领域的指针。

我了解C#和Java。我在数值分析方面使用了一些人工智能/神经网络--特别是反向传播和遗传算法--来比较图像和寻找最佳点。然而,我不知道如何处理文本数据。

如果这个问题不清楚,请告诉我,我会尽量澄清我的描述。谢谢你们所有人。

EN

回答 1

Stack Overflow用户

发布于 2013-05-06 17:22:45

当然,有很多算法处理字符串中的文本相似度和距离度量(对于他们的短名单看维基百科)。以下是如何更具体地处理这个问题的一些想法:

  • 建立一个具有品牌名称的字典,当两个产品字符串共享相同的品牌名称时,在总体相似性函数中赋予它很高的权重。
  • 如果较长的数字匹配,则给它一个高的相似值。
  • 规范化输入文本字符串,以消除连字符和其他东西。
  • 使用多个相似性度量。

通常,如果您设法将有关此类字符串的知识放入您编写的代码中,而不是使用一般方法,则会得到更好的结果.但既然你来自人工智能/神经网络背景..。如果您为输入字符串生成有用的描述符,您可以通过机器学习技术找到使字符串类似的方法。为此,您需要一个已经正确分配的产品字符串的足够大的基础。

但也许你需要一些很简单的东西?然后查看协议

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/16403624

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档