首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >当顶点AI训练失败(3次尝试后),如何创建日志路由器库?

当顶点AI训练失败(3次尝试后),如何创建日志路由器库?
EN

Stack Overflow用户
提问于 2021-07-26 15:20:38
回答 1查看 243关注 0票数 0

我正在GCP上运行一个GCP(使用自定义容器进行机器学习培训)。当作业失败时,我想创建一个Pub/Sub消息,这样我就可以在一些聊天上发布一条消息,比如Slack。日志文件(Cloud Logging)如下所示):

代码语言:javascript
复制
{
insertId: "xxxxx"
labels: {
ml.googleapis.com/endpoint: ""
ml.googleapis.com/job_state: "FAILED"
}
logName: "projects/xxx/logs/ml.googleapis.com%2F1113875647681265664"
receiveTimestamp: "2021-07-09T15:05:52.702295640Z"
resource: {
labels: {
job_id: "1113875647681265664"
project_id: "xxx"
task_name: "service"
}
type: "ml_job"
}
severity: "INFO"
textPayload: "Job failed."
timestamp: "2021-07-09T15:05:52.187968162Z"
}

我正在使用以下查询创建日志路由器Sink:

代码语言:javascript
复制
resource.type="ml_job" AND textPayload:"Job failed" AND labels."ml.googleapis.com/job_state":"FAILED"

我面临的问题是,顶点AI将重新尝试作业3次,然后宣布该作业为失败,但在日志文件中的信息是相同的。下面有3个例子,只有最后一个失败了3次,最后才失败了。

例如,在日志文件中,我没有任何计数id。知道怎么解决这个问题吗?创建一个BigQuery表来跟踪每个resource.labels.job_id的失败次数,如果我需要在我的所有项目中这样做的话,这似乎是过头了。是否有办法通过resource.labels.job_id进行分组并在Logs中进行计数?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2021-07-26 20:28:02

日志接收器非常简单:提供一个过滤器,它将在PubSub主题中发布与此过滤器匹配的每个条目。没有小组,没有计数,什么都没有!

我建议您将基于日志的度量和云监视相结合。

  1. 首先,在作业失败的日志条目上创建一个基于日志的度量
  2. 创建具有以下键值的警告此基于日志的度量标准
  • 设置您想要的组,例如jobID (我不知道VertexAI作业的相关值是什么)
  • 当阈值等于或高于3时设置警报
  • 添加通知通道并设置PubSub通知(仍处于beta状态)

使用此配置,当发生3次相同的PubSub时,警报将只在PubSub中发布一次。

票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68532457

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档