首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >抓取电子商务网站并聚合相同的产品

抓取电子商务网站并聚合相同的产品
EN

Stack Overflow用户
提问于 2019-05-29 04:46:01
回答 1查看 76关注 0票数 1

我正在尝试学习网络抓取,作为一个应用程序,我想我应该构建一个聚合器,它可以抓取零售商的某些产品,并为不同零售商的相同产品建立一个价格比较。

当我开始做这个的时候,我意识到这是一个多大的任务。

首先,我需要抓取的网站,不仅有他们的DOM结构的各种格式,但也略有不同的名称相同的产品和项目的价格和销售项目的价格格式。

其次,在我以某种方式为x个站点解码了DOM之后(为一两个站点这样做很容易,但我想让爬虫变得可伸缩!)并获取各种项目的数据。我需要能够比较相同产品的不同名称,以便我可以比较不同的价格(将它们转换为相同的货币,检查返回的价格是否为原始/正在销售的价格,等等)在零售商之间。

我正在尝试用Scrapy编写我的爬虫,但是有人能推荐一种方法来适应不同零售商的爬虫吗?是否有任何库/方法可以很好地解决比较相似(不同)商品的第二个问题?

EN

回答 1

Stack Overflow用户

发布于 2019-06-03 03:27:38

为了进行比较,您可以将产品名称字符串转换为列表,对它们进行比较,并设置阈值来确定两个产品是否相同。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/56349829

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档