文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在Google Cloud中计划网站爬行？

问如何在Google Cloud中计划网站爬行？
EN

Stack Overflow用户

提问于 2020-04-04 06:17:04

回答 1查看 147关注 0票数 0

我想在谷歌云中存储一个网络爬行软件尖叫青蛙的副本。这将位于Compute引擎实例或Kubernetes容器中。

我可以使用linux shell在我的计算机上本地运行尖叫青蛙爬行：

screamingfrogseospider --crawl https://www.example.com --headless --save-crawl --output-folder /tmp/cli

在Google Cloud中有可能做类似的事情吗？

理想情况下，我想安排一些cron任务，使上面的shell命令运行，导致网站被抓取；抓取的结果保存到Google Cloud存储中的存储桶中。

我该怎么做呢？

另外，是否可以使用Python等编程语言在GCP中设置和调度cron任务？我的想法是让我的组织中的人能够登录到UI (可能是在Flask中构建的)，并自己计划爬行。然后，Flask将连接到Google Cloud并配置任务。

google-compute-engine

python

google-cloud-platform

回答 1

Stack Overflow用户

发布于 2020-04-04 12:55:39

您可以使用GCP云调度器。在这个链接中，您可以找到如何使用cron调度程序[https://cloud.google.com/scheduler/docs/start-and-stop-compute-engine-instances-on-a-schedule]启动和停止计算引擎的示例。在GCE启动脚本中，您可以设置用于站点爬行的命令。

另一个选项是Cloud composer，您可以在需要时编写DAG调度，并使用airflow bash操作符运行shell命令(Cloud composer是GCP airflow实现)

票数 3

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/61021241

复制

相似问题

问如何在Google Cloud中计划网站爬行？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在Google Cloud中计划网站爬行？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在Google Cloud中计划网站爬行？
EN