谷歌应用引擎可以用来运行网络爬虫吗?
我有一个爬虫进程,从amazon网站产品的特定id (或ASIN编号)开始。然后,该过程使用amazon产品广告API获得类似的产品。在获取类似产品之后,使用它们的ASIN号来调用其他类似产品的API。这个过程应该得到大约25,000种产品的信息,大约需要3-6个小时。
现在,我的客户端希望使用不同的初始ASIN号运行这个进程的多个实例。我给了他一个关于如何使用google计算引擎制作整个系统的建议,但是他渴望使用google应用引擎。他认为应用引擎会自动生成爬虫实例。
由于google应用引擎用于后端和app,我担心在应用程序引擎上部署这样的爬虫系统会有其局限性。
发布于 2018-04-05 23:48:28
是。您可以获取基本URL,刮取数据,获取相关产品的url,然后旋转taskqueues以获取每个后续的url。冲洗并重复。
https://stackoverflow.com/questions/49682215
复制相似问题