我正在GCP上运行一个GCP(使用自定义容器进行机器学习培训)。当作业失败时,我想创建一个Pub/Sub消息,这样我就可以在一些聊天上发布一条消息,比如Slack。日志文件(Cloud Logging)如下所示):
{
insertId: "xxxxx"
labels: {
ml.googleapis.com/endpoint: ""
ml.googleapis.com/job_state: "FAILED"
}
logName: "projects/xxx/logs/ml.googleapis.com%2F1113875647681265664"
receiveTimestamp: "2021-07-09T15:05:52.702295640Z"
resource: {
labels: {
job_id: "1113875647681265664"
project_id: "xxx"
task_name: "service"
}
type: "ml_job"
}
severity: "INFO"
textPayload: "Job failed."
timestamp: "2021-07-09T15:05:52.187968162Z"
}我正在使用以下查询创建日志路由器Sink:
resource.type="ml_job" AND textPayload:"Job failed" AND labels."ml.googleapis.com/job_state":"FAILED"我面临的问题是,顶点AI将重新尝试作业3次,然后宣布该作业为失败,但在日志文件中的信息是相同的。下面有3个例子,只有最后一个失败了3次,最后才失败了。

例如,在日志文件中,我没有任何计数id。知道怎么解决这个问题吗?创建一个BigQuery表来跟踪每个resource.labels.job_id的失败次数,如果我需要在我的所有项目中这样做的话,这似乎是过头了。是否有办法通过resource.labels.job_id进行分组并在Logs中进行计数?
发布于 2021-07-26 20:28:02
日志接收器非常简单:提供一个过滤器,它将在PubSub主题中发布与此过滤器匹配的每个条目。没有小组,没有计数,什么都没有!
我建议您将基于日志的度量和云监视相结合。
使用此配置,当发生3次相同的PubSub时,警报将只在PubSub中发布一次。
https://stackoverflow.com/questions/68532457
复制相似问题