这是我的第二个问题,所以,如果有任何错误,请道歉。
我的主要目标是从不同的电子商务网站收集数据,然后比较它们之间的数据。要做到这一点,我需要匹配相同的产品从不同的网站。由于不同的站点编写标题的方式不同,我需要从标题中提取产品的属性才能正确匹配。我使用刮痕收集数据,但无法与来自不同站点的同一产品相匹配。
我的尝试:
首先,我收集品牌,模型等,然后以传统的方式与标题相匹配。但是它不能工作,因为它不能收集所有的模型名称进行比较。而且,不同类别的产品属性是不同的,而不是相似的。我正在努力寻找解决方案,这将适用于各种产品。可以学习和识别品牌、型号、属性(RAM、英寸、ROM、照相机等)
我也尝试应用机器学习,但不知道哪种类型的方法将适合我的需要。大多数文本分类方法是对类别进行分类,而不是提取属性。
我还读过马勒。但不确定这是否能解决我的问题。也试过了这个教程。
来自不同站点的产品标题示例。三星银河S9 Plus
请分享我如何处理这个问题,哪种方式是最好的。如果可能的话,分享一些类似目标的链接或资源。
发布于 2018-06-05 08:57:55
使用sentence2vec或word2vec库将文本转换为向量。然后使用向量间的余弦相似度。
保持一定的相似度阈值,否则相似度最大的向量将是匹配的乘积。
这就是你可以比较那些的方法。
https://stackoverflow.com/questions/50694305
复制相似问题