首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SRE运维进阶之路

    K8s 集群巡检

    上次发文 K8s 无备份,不运维!,文章开篇,插入了一张 K8s 集群巡检的图片,好多小伙伴私信留言,问我要开源地址。 什么是平台巡检 平台巡检是一种监测和评估底层系统运行状况的工具,可帮助您快速发现系统中存在的潜在风险并给出相应修复建议。 巡检的意义 我反复思考,有了 metrics/logs/traces + grafana + alert ,还需要巡检做什么? VictorMetric 等组件的状态,拉取最新数据情况,监控是否收集了各个组件的 metrics 是主动式的发现问题,能迅速了解整个集群的核心指标的状态,集中式检查,不用一个个 Grafana 图标检查 K8s 、prometheusOr、prometheusList 四种 bash 对应放置在 K8s Master 节点上指定目录下的 bash 脚本,脚本中有两行返回值,一行是具体结果,一行是正常 Or 异常

    61010编辑于 2024-08-27
  • 来自专栏全栈程序员必看

    k8s-主节点巡检脚本

    033[42;37m" f="\033[43;37m" g="\033[44;37m" h="\033[45;37m" q="\033[46;37m" echo -e "$h=========本脚本适用K8S 主节点&作者:小韩======"$e echo -e "$a--------自动巡检开启--请把你的小手拿走--" $e linux=$(cat /etc/redhat-release) echo -e kubelet服务状态为正常 else echo -e "$c----Kubelet服务状态异常--请进行检查---" $e #否则kubelet服务状态为异常 fi echo -e "$a----查看K8s 集群状态----"$e #查看k8s集群状态 K8s=$(kubectl get nodes | grep Ready | wc -l) #进行查询k8s集群节点为正常状态的节点 echo - e "$c----K8s集群节点状态为Ready的数量为:$K8s" $e echo -e "$a----查看Etcd集群健康状态----" $e Etcd=$(kubectl get cs | grep

    64110编辑于 2022-06-29
  • 来自专栏互联网-小阿宇

    k8s-主节点巡检脚本

    033[42;37m" f="\033[43;37m" g="\033[44;37m" h="\033[45;37m" q="\033[46;37m" echo -e "$h=========本脚本适用K8S 主节点&作者:小韩======"$e echo -e "$a--------自动巡检开启--请把你的小手拿走--" $e linux=$(cat /etc/redhat-release) echo -e kubelet服务状态为正常 else echo -e "$c----Kubelet服务状态异常--请进行检查---" $e #否则kubelet服务状态为异常 fi echo -e "$a----查看K8s 集群状态----"$e #查看k8s集群状态 K8s=$(kubectl get nodes | grep Ready | wc -l) #进行查询k8s集群节点为正常状态的节点 echo - e "$c----K8s集群节点状态为Ready的数量为:$K8s" $e echo -e "$a----查看Etcd集群健康状态----" $e Etcd=$(kubectl get cs | grep

    73030编辑于 2022-11-21
  • 来自专栏东隅已逝

    MySQL巡检

    操作系统层面 cpu监控 1[root@zst data]# sar -u 10 3Linux 2.6.32-642.el6.x86_64 (zst) 09/22/2017 _x86_64_ (8 0.03 93.40 内存监控 1[root@zst data]# sar -r 10 3Linux 2.6.32-642.el6.x86_64 (zst) 09/22/2017 _x86_64_ (8 18774068 37.81 I/O监控 1[root@zst data]# sar -b 10 3Linux 2.6.32-642.el6.x86_64 (zst) 09/22/2017 _x86_64_ (8 MySQL本身 MySQL本身的监控应该包含重点参数的检查,MySQL状态的检查,除此以外还应该包含自增id的使用情况(小心因为自增id使用满了 不能insert写入从而引发报警哦),及主从健康状态的巡检 中间件的巡检 mycat && proxysql 这些中间件的巡检,首先参考系统巡检,再看一下中间件本身的日志类和状态类信息,网络延迟或丢包的检查,也是必须要做工作。

    1.9K40发布于 2019-12-12
  • 来自专栏杨建荣的学习笔记

    业务巡检-系统巡检该怎么做

    系统巡检是对于服务巡检的第一站,所以在这里我们要做好第一班岗,如果系统巡检稀里糊涂,那么后续的数据库服务巡检效果也会大打折扣。 对于系统巡检整体上有如下的一些部分需要注意: ? 可能整体看起来没有太深入的理解,但是和实践结合起来就有很多的注意事项,我们就以硬件信息-ILO状态检查为例来提供一种巡检思路,iLO(Integrated Lights-Out)服务基于惠普的远程控制卡服务 对于iLO服务,我们需要做如下的巡检: (1) 检查ILO可用性和使用情况 (2) ILO模块是否开启 (3) iLO密码检查 (4) iLO超过最大用户连接数限制检查 (5) iLO在不同的硬件产品版本和浏览器的兼容性 在主机层面需要注意如下的两点: (1) 操作系统版本 操作系统的版本也需要提前规划,如果有些服务的版本过旧,需要考虑升级到一个较新的稳定版本,比如RedHat 5是个相对较旧的版本,需要尽可能升级到6U8以上版本

    3.1K20发布于 2019-05-13
  • 来自专栏用户6465593的专栏

    设备巡检的痛点和巡检方案

    如何让设备巡检人员高质量完成巡检工作呢也是管理者头疼的一个问题。设备巡检工作的难点在哪呢? 对巡检人员而言:巡检人员需要按照巡检任务对设备进行巡检,保证按时完成巡检任务。纸质的巡检表格显然不方便开展巡检工作。没有自动提醒功能的话,很容易漏检,纸质表格数据也容易丢失等。 2) 可设置巡检定位和拍照,实现高效巡检管理员创建巡检方案后,系统可根据周期自动生成巡检任务,分配给巡检人员。可设置巡检定位、拍照以及巡检班组、巡检路线、巡检点等。巡检人员根据设置的巡检路线进行巡检。 抵达相应的巡检点和设备存放处后扫码填写巡检项目,现场定位并对设备进行拍照记录,可有效规避未到场的假巡检等;同时,通过易点易动设备巡检解决方案,可以设置自定义提醒,确保巡检班组人员收到巡检提醒,确保巡检没有遗漏 3) 实时掌握巡检数据,多维度巡检数据分析通过易点易动设备巡检解决方案自动生成多维度的巡检数据报表,让管理者可实时掌握设备巡检状态、巡检点统计、班组巡检统计、整改统计、巡检点整改统计等,从而可以进一步优化巡检工作和巡检人员管理

    1.3K30编辑于 2022-09-01
  • 来自专栏数据库相关

    SQL Server巡检

    这里简单的补充几个,用python包装一下即可集成到数据库巡检任务平台。 CN.most_recent_sql_handle) AS ST where CN.session_id = ${上一步查出来的BSID} 用python处理下,大致这样,还可以优化下通过钉钉告警出来: 长事务巡检 Committed' WHEN 7 THEN 'Transaction Rolling Back' WHEN 8

    1.2K30编辑于 2023-07-05
  • AR工业巡检:虚实融合的智能巡检技术详解

    一、核心原理:空间锚定与虚实叠加​AR 巡检通过技术手段建立物理巡检场景与数字信息模型的一一对应关系,它可以对真实空间进行数字增强,提神工人的感知能力。​ 三、实现流程​以工业设备巡检为例,AR 巡检的典型流程的为:​预处理阶段:采集巡检区域的环境数据,构建数字孪生模型,录入设备参数、检修标准、应急预案等信息,完成 AR 系统的场景标定(即建立虚拟坐标与物理坐标的映射关系 现场巡检阶段:巡检人员佩戴 AR 眼镜进入现场,系统通过 SLAM 技术实时定位,自动匹配对应的数字孪生模型,在视野中叠加设备信息;传感器实时采集数据,AI 算法同步分析,若发现异常(如温度超标、部件变形 数据反馈阶段:巡检过程中产生的缺陷记录、图像、传感器数据自动上传至后台管理系统,更新设备档案,形成巡检报告,为后续维护计划制定提供数据支撑。​ 将模型绑定到锚点(虚实位置精准对应) AnchorNode anchorNode = new AnchorNode(anchor); 8.

    57910编辑于 2025-10-20
  • 来自专栏Python自动化测试

    线上巡检机制

    这种情况下,可以使用线上巡检机制。 线上巡检机制可以把它理解为实时的进行轮训监控,如果一旦服务出现问题,触发报警的机制通知相关的人员进行紧急的处理。 针对线上巡检的机制可以沿着两个维度来思考,一个是单纯的验证服务的可用性,也就是服务返回200的状态码认为服务是可用的,另外一种是结合业务场景来进行,因为服务返回200的状态码不代表服务提供的业务场景是可用的 /usr/bin/env python # -*- coding:utf-8 -*- #author:无涯 import requests def test_service_available():

    1.4K10编辑于 2022-03-29
  • 来自专栏院长运维开发

    Linux巡检脚本

    /bin/bash #主机信息每日巡检 IPADDR=$(ifconfig eth0|grep 'inet addr'|awk -F '[ :]' '{print $13}') #环境变量PATH没设好 #SNMP OK report_NTP="" #NTP ok report_JDK="" #JDK版本 ok function version(){ echo "" echo "" echo "系统巡检脚本 Mounted on/Mounted/'> /tmp/disk join /tmp/disk /tmp/inode | awk '{print $1,$2,"|",$3,$4,$5,$6,"|",$8, sysconfig/i18n | grep -v "^#" | awk -F '"' '{print $2}')" else default_LANG=$LANG fi export LANG="en_US.UTF-8" 执行检查并保存检查结果 check > $RESULTFILE echo "检查结果:$RESULTFILE" echo -e "`date "+%Y-%m-%d %H:%M:%S"` 阿里云PHP企业平台巡检报告

    5.3K51编辑于 2022-03-11
  • 来自专栏用户6465593的专栏

    智能设备巡检系统让设备巡检更加高效

    设备巡检是指对生产设备进行定期的检查、维护和保养,以确保设备的正常运行和安全性。设备巡检是企业生产管理的重要环节,关系到企业的生产效率、质量和成本。 传统的设备巡检方式主要依靠人工进行,存在以下几个问题: 人工巡检效率低,耗时长,容易出错; 人工巡检难以覆盖所有的设备和部位,容易遗漏重要的故障点; 人工巡检难以形成完整的数据记录和分析,难以提供及时有效的决策支持 ; 人工巡检存在虚假巡检,人员直接填写单子,却并没有到现场检查。 易点易动设备巡检系统具有以下几个优点: 通过手机二维码巡检提高了设备巡检效率,节省了人力资源和时间成本; 提高了设备巡检质量,减少了漏检和误报率; 提高了设备运行状态的透明度,增强了数据驱动的决策能力; 系统还可以设置巡检路线,巡检内容等。 增加了设备巡检的扩展性,企业可以根据自己的个性化需求进行配置表单、字段、报表等,满足企业的个性化需求。

    1K10编辑于 2023-03-08
  • 来自专栏开源运维解决方案

    WGCLOUD的巡检报告

    作为一款专业的开源运维软件,巡检报告是必不可少的功能了,WGCLOUD也有巡检报告的WGCLOUD的巡检报告包括:日报,周报,月报,全部自动生成,不用手动操作,非常自动化巡检报告会对一个时间段的所有监控资源的整体运行情况 ,进行统计分析,我们工程师在写工作报告的时候,也可以参考这个巡检报告内容巡检报告也可以导出Excel,非常好用如下图图片图片

    52930编辑于 2023-08-01
  • 来自专栏「3306 Pai」社区

    MySQL节前巡检要点

    今天距农历新年还有9天,3306π社区提前给大家拜年啦~ 一、操作系统巡检 如果有zabbix或者其他监控类型的工具,就方便很多。 二、MySQL本身巡检 MySQL本身的监控应该包含重点参数的检查,MySQL状态的检查,除此以外还应该包含自增id的使用情况(小心因为自增id使用满了 不能insert写入从而引发报警哦),及主从健康状态的巡检 Threads_connected 当前打开的连接数量 Threads_created 创建用来处理连接的线程数 Threads_running 激活的(非睡眠状态)线程数 我写了一个不成熟的小巡检程序 ,仅巡检MySQL的状态和参数配置(因为客户的环境不能直连linux但可以直连MySQL,不支持系统层面,系统层面使用zabbix等即可),有兴趣的小伙伴可以看看。 3.2 中间件的巡检 mycat && proxysql 这些中间件的巡检,首先参考系统巡检,再看一下中间件本身的日志类和状态类信息,网络延迟或丢包的检查,也是必须要做工作。

    1.2K40发布于 2019-03-01
  • 来自专栏数据库相关

    SQLServer大事务巡检

    https://www.sqlservercentral.com/articles/monitoring-longest-running-transaction-using-sql-server-agent-alerts

    50410编辑于 2023-12-19
  • 设备巡检系统排行

    在工业4.0与智能制造的浪潮下,设备巡检作为保障企业生产安全与设备高效运转的关键环节,其数字化转型需求日益迫切。 如何选择适配的设备巡检系统,成为企业降本增效的核心命题。一、传统设备巡检模式的痛点困局传统设备巡检依赖纸质表单记录与人工定期检查,存在多重弊端。 据调研,使用传统巡检方式的企业中,仅15%能实现设备故障的提前预判。 三、主流设备巡检系统综合实力解析与优选方案当前市场上,设备巡检系统主要分为定制化开发、低代码/无代码平台、标准化SaaS产品三类。 其设备巡检模块支持通过可视化表单自定义巡检项,结合Q-Robot自动化流程引擎,可自动生成巡检任务并推送至责任人,实现巡检计划-执行-整改-验收的全流程闭环管理。

    20910编辑于 2025-09-01
  • 来自专栏防止网络攻击

    Python之服务巡检

    那么做线上巡检就成了我们很多测试,或者运维考虑的了,我们巡检不是为了去发现bug,更多的时候是保证服务是OK的,是可以访问的,比如我们Tomcat下的一个站点,很少有首页挂了,其他页面是OK的情况,因此我们巡检的目的是验证服务是否 接下来我们就以具体的实例来讲解下服务巡检的流程。 2. 设计思路 2.1 流程图 2.2 主要模块介绍 2.2.1 startUp.py 程序的入口,代码如下: #coding: utf-8 """ 文件名:startUp.py """ import 通过对调用前和调用后两次数据进行比较得到巡检结果get_result() #具体实现见2.2.1 5. 结果展示 巡检结果正常时: 巡检结果异常时: 实际日常巡检的结果:

    1.1K30编辑于 2022-11-15
  • 来自专栏杨建荣的学习笔记

    MySQL巡检建议梳理

    这是学习笔记的第 1808篇文章 最近在做业务巡检的工作时,对于巡检信息的展示,对于偏后端的我们是不擅长的,所以我们设计一个基本的原型需求,在专业前端团队的帮助下,迭代了一个初版的demo,整体来看, 我想这也是我主导业务巡检这个事情的初衷:让业务看得懂的巡检。 ? 至于MySQL层面的巡检,按照我们之前的思路,其实主要是偏系统层面的,比如监控,报警检查,主从复制检查,备份检查等。 在这个基础上,我把巡检的检查项做了一个初步的梳理,大体分了这么几个层面。 对于巡检信息的抽取,初步计划是做到离线采集,在线提取,这样一来对于数据的巡检结果响应效率是最佳的。 所以从巡检结果的设计层面考虑,我是打算按照周期表的方式来执行巡检任务,把生成的巡检数据已接口化的方式存储起来,在需要提取的时候可以直接查取。

    1.8K20发布于 2018-12-18
  • 来自专栏爱可生开源社区

    技术分享 | MySQL 巡检

    ---- MySQL巡检 操作系统层面 cpu 内存 I/O 磁盘 系统基础信息 操作系统日志 MySQL 重点参数 MySQL的状态 库表情况 MySQL主从检测 高可用层面 中间件的巡检 操作系统层面 巡检嘛没啥特别的,就直奔主题把。 操作系统日志 除此之外,还需要关注日志类信息,例如: tail 200 /var/log/messages dmesg | tail 200 MySQL MySQL重点参数的检查,及主从健康状态的巡检 中间件的巡检 mycat && proxysql 这些中间件的巡检,首先参考系统巡检,再看一下中间件本身的日志类和状态类信息,网络延迟或丢包的检查,也是必须要做工作。 ----

    98940发布于 2021-06-16
  • 来自专栏用户6465593的专栏

    二维码巡检解决纸质巡检的痛点

    “上线了易点易动系统之后,设备的信息都绑定了二维码,巡检任务会自动推送到我们手机,避免了遗漏巡检。定期对设备进行巡检和点检变得简单。 之前,使用纸质表格巡检时,不但效率低容易出错,而且经常遗漏,还有虚假巡检的情况发生,导致巡检结果不准确,给电厂带来了损失。 系统还支持自定义巡检班组、巡检路线、巡检时间、拍照、定位等。 图片 易点易动设备巡检系统可帮助企业实现: 1) 设备巡检系统支持移动化巡查与记录,可设置定位、拍照等。规避虚假巡检,让巡检数据更加真实。 2)自定义巡检周期,手机会自动接收到巡检消息提醒,防止漏检的情况。 3)自定义巡检路线和巡检内容,让巡检更加符合企业的实际需要。多元化智能巡检,提升工作效率。 4) 巡查行为标准化,可自定义设置巡检班组和巡检班组的顺序等。巡检时,发现有问题的,可自动登记整改。 5) 巡检后的数据分析,系统有多种分析报表,可将巡检数据进行分析,让巡检的整个流程更加科学。

    39520编辑于 2023-02-23
  • 来自专栏网络技术联盟站

    思科设备巡检命令

    show vtp status :查看交换机vtp配置模式 6、show vtp password :查看交换机vtp配置口令 7、show env all :查看设备温度,电源和风扇运转参数及是否报警 8

    1.5K41发布于 2021-11-03
领券