首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何监控glue crawler执行状态?

如何监控glue crawler执行状态?
EN

Stack Overflow用户
提问于 2019-07-26 12:34:58
回答 1查看 1K关注 0票数 1

我正在使用AWS Glue来做数据抽取。我找不到一种方法来监控亚马逊网络服务上的glue crawler执行统计数据。我知道如何像这样监控胶水作业:https://docs.aws.amazon.com/glue/latest/dg/monitoring-awsglue-with-cloudwatch-metrics.html。但我想知道是否有类似的方法来检查glue crawler的执行情况?

我可以在Cloudwatch中查看爬虫的日志,但它的可读性不是很好。对于我来说,很难计算出在指定的时间段内发生了多少次调用。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2020-05-15 03:07:51

我问了AWS支持中心同样的问题。这就是答案:

据我所知,Glue crawler不会发布您希望监控的执行和统计数据的CloudWatch指标,但是Glue crawler能够将日志发布到CloudWatch日志组和日志流。根据这些日志事件消息,您可以创建一个指标过滤器1来匹配特定的过滤器模式,并生成您自己的指标来监控和告警。例如,如果度量筛选器检测到筛选器模式"Crawler已完成运行并处于就绪状态“,它将向您的自定义名称空间度量发布值。以下是创建指标过滤器的一些步骤:

代码语言:javascript
复制
1) Open the CloudWatch Log Groups console
2) Select the Glue crawler log group
3) Select Metric filters, choose Create metric filter
4) In Filter pattern, enter a pattern that you want to match in the log streams, ie: "Crawler has finished running and is in state READY", then choose Next
    4a) You can test your filter pattern against a log stream or by manually specifying log event messages
5) Enter a filter name, enter a customer metric namespace, metric name, metric value. The metric value while be published on the metric, ie: 1, then choose Next
6) Review the metric filter configuration and choose Create metric filter

CloudWatch事件能够基于Glue crawler状态更改调用目标,例如,如果crawler状态更改为failed,这可以调用SNS主题目标并向您发送电子邮件。下面是创建CloudWatch事件的一些步骤:

代码语言:javascript
复制
1) Open the CloudWatch Rules console
2) Choose Create rule
3) In Service Name, select Glue, in Event Type select Glue Crawler State Change
4) Choose Specific state(s) and choose Failed
5) Add a Target, for example SNS Topic, choose Configure details
6) Enter a Rule name and choose Create rule

好好享受剩下的一天吧。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/57213267

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档