首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何匹配来自不同eCommerce来源的产品?提取产品属性

如何匹配来自不同eCommerce来源的产品?提取产品属性
EN

Stack Overflow用户
提问于 2018-06-05 07:19:57
回答 1查看 1.2K关注 0票数 1

这是我的第二个问题,所以,如果有任何错误,请道歉。

我的主要目标是从不同的电子商务网站收集数据,然后比较它们之间的数据。要做到这一点,我需要匹配相同的产品从不同的网站。由于不同的站点编写标题的方式不同,我需要从标题中提取产品的属性才能正确匹配。我使用刮痕收集数据,但无法与来自不同站点的同一产品相匹配。

我的尝试:

首先,我收集品牌,模型等,然后以传统的方式与标题相匹配。但是它不能工作,因为它不能收集所有的模型名称进行比较。而且,不同类别的产品属性是不同的,而不是相似的。我正在努力寻找解决方案,这将适用于各种产品。可以学习和识别品牌、型号、属性(RAM、英寸、ROM、照相机等)

我也尝试应用机器学习,但不知道哪种类型的方法将适合我的需要。大多数文本分类方法是对类别进行分类,而不是提取属性。

我还读过马勒。但不确定这是否能解决我的问题。也试过了这个教程

来自不同站点的产品标题示例。三星银河S9 Plus

  • 三星Galaxy S9 Plus配备免费无线充电器和5GB班加林数据- 皮卡布
  • 三星银河S9 +- 基克沙
  • 三星Galaxy S9+ - 摩托
  • 三星Galaxy S9 Plus -智能手机- 6.2“- 6GB内存-64 6GB- 12 MP摄像头- Lilac紫色- 达拉斯

请分享我如何处理这个问题,哪种方式是最好的。如果可能的话,分享一些类似目标的链接或资源。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2018-06-05 08:57:55

使用sentence2vec或word2vec库将文本转换为向量。然后使用向量间的余弦相似度。

保持一定的相似度阈值,否则相似度最大的向量将是匹配的乘积。

这就是你可以比较那些的方法。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/50694305

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档