我想在谷歌云中存储一个网络爬行软件尖叫青蛙的副本。这将位于Compute引擎实例或Kubernetes容器中。
我可以使用linux shell在我的计算机上本地运行尖叫青蛙爬行:
screamingfrogseospider --crawl https://www.example.com --headless --save-crawl --output-folder /tmp/cli在Google Cloud中有可能做类似的事情吗?
理想情况下,我想安排一些cron任务,使上面的shell命令运行,导致网站被抓取;抓取的结果保存到Google Cloud存储中的存储桶中。
我该怎么做呢?
另外,是否可以使用Python等编程语言在GCP中设置和调度cron任务?我的想法是让我的组织中的人能够登录到UI (可能是在Flask中构建的),并自己计划爬行。然后,Flask将连接到Google Cloud并配置任务。
发布于 2020-04-04 12:55:39
您可以使用GCP云调度器。在这个链接中,您可以找到如何使用cron调度程序[https://cloud.google.com/scheduler/docs/start-and-stop-compute-engine-instances-on-a-schedule]启动和停止计算引擎的示例。在GCE启动脚本中,您可以设置用于站点爬行的命令。
另一个选项是Cloud composer,您可以在需要时编写DAG调度,并使用airflow bash操作符运行shell命令(Cloud composer是GCP airflow实现)
https://stackoverflow.com/questions/61021241
复制相似问题