文章/答案/技术大牛

发布

社区首页 >问答首页 >分布式爬虫和一致性

问分布式爬虫和一致性
EN

Stack Overflow用户

提问于 2019-06-04 22:17:30

回答 1查看 66关注 0票数 0

这种情况下，我们有多个服务器(40+)同时抓取一个相同的网址(以确保我们有最小的遗留)并将数据保存到数据库(MySQL)中。

现在的问题是:数据来回切换。例如，由于crawler/数据库遗留问题，内容将在几秒钟内变为A <-> B <-> A <-> B <-> A。

有没有好的方法来预防它呢？我们正在用Perl编写爬虫，但是任何语言对我们来说都是很好的，因为我们可以借鉴背后的想法。

任何建议都将不胜感激。雷迪斯？ZeroMQ？

谢谢

redis

web-crawler

data-consistency

mysql

perl

回答 1

Stack Overflow用户

发布于 2019-06-05 17:44:18

Lock a row so another process cannot update it.

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/56445790

复制

相似问题

问分布式爬虫和一致性
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分布式爬虫和一致性EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分布式爬虫和一致性
EN