上次发文 K8s 无备份,不运维!,文章开篇,插入了一张 K8s 集群巡检的图片,好多小伙伴私信留言,问我要开源地址。 什么是平台巡检 平台巡检是一种监测和评估底层系统运行状况的工具,可帮助您快速发现系统中存在的潜在风险并给出相应修复建议。 巡检的意义 我反复思考,有了 metrics/logs/traces + grafana + alert ,还需要巡检做什么? VictorMetric 等组件的状态,拉取最新数据情况,监控是否收集了各个组件的 metrics 是主动式的发现问题,能迅速了解整个集群的核心指标的状态,集中式检查,不用一个个 Grafana 图标检查 K8s 、prometheusOr、prometheusList 四种 bash 对应放置在 K8s Master 节点上指定目录下的 bash 脚本,脚本中有两行返回值,一行是具体结果,一行是正常 Or 异常
033[42;37m" f="\033[43;37m" g="\033[44;37m" h="\033[45;37m" q="\033[46;37m" echo -e "$h=========本脚本适用K8S 主节点&作者:小韩======"$e echo -e "$a--------自动巡检开启--请把你的小手拿走--" $e linux=$(cat /etc/redhat-release) echo -e kubelet服务状态为正常 else echo -e "$c----Kubelet服务状态异常--请进行检查---" $e #否则kubelet服务状态为异常 fi echo -e "$a----查看K8s 集群状态----"$e #查看k8s集群状态 K8s=$(kubectl get nodes | grep Ready | wc -l) #进行查询k8s集群节点为正常状态的节点 echo - e "$c----K8s集群节点状态为Ready的数量为:$K8s" $e echo -e "$a----查看Etcd集群健康状态----" $e Etcd=$(kubectl get cs | grep
033[42;37m" f="\033[43;37m" g="\033[44;37m" h="\033[45;37m" q="\033[46;37m" echo -e "$h=========本脚本适用K8S 主节点&作者:小韩======"$e echo -e "$a--------自动巡检开启--请把你的小手拿走--" $e linux=$(cat /etc/redhat-release) echo -e kubelet服务状态为正常 else echo -e "$c----Kubelet服务状态异常--请进行检查---" $e #否则kubelet服务状态为异常 fi echo -e "$a----查看K8s 集群状态----"$e #查看k8s集群状态 K8s=$(kubectl get nodes | grep Ready | wc -l) #进行查询k8s集群节点为正常状态的节点 echo - e "$c----K8s集群节点状态为Ready的数量为:$K8s" $e echo -e "$a----查看Etcd集群健康状态----" $e Etcd=$(kubectl get cs | grep
华夏天信(北京)机器人有限公司,使用百度飞桨开源深度学习平台开发了输煤皮带机器人,代替巡检工人帮助企业有效监管工作人员行为和设备故障,及时报警,显著提高了企业安全生产系数。 ? 煤矿行业最大“杀手” 精准巡检实现难 在煤矿行业,设备场地管理和人员的安全及行为规范有严格要求,比如输煤皮带这种关键生产设备周边,需要现场工作人员严格遵守企业安全规定,包括停开机制度、安全帽、矿工服要求等 所以,人员及属性检测和设备的日常监控和维护变成了安全保障的重要一环。 然而,一般输煤皮带动辄几公里,完全依靠人力现场巡检或远程摄像头查看不仅耗时耗力,而且难免误看漏看。 而胶带输送机平时需要定时的人工巡检,通常的做法就是由巡检工人开着吉普车围着胶带走一圈。 相比之前人工巡检,缺陷发现平均速度提升了300%,及时有效地避免了安全隐患;违规行为迅速下降了90%,现场工作人员的安全意识得到了进一步提高。 ?
用RokidCXR-MSDK做电力巡检智能安全系统:入门也能看懂的实战指南前言这篇文章会一步步讲清楚,怎么用RokidCXR-MSDK开发一套适合电力巡检的智能安全系统。 一、电力巡检为啥难?AR眼镜来帮忙1.1传统电力巡检的那些麻烦事电力系统就像国家的“能源大动脉”,安全运行特别重要。根据统计,我国每年电力系统出的安全事故里,差不多30%都和巡检工作有关。 1.2AR眼镜让巡检变简单、变安全增强现实(AR)技术就像给巡检工作开了“外挂”,而Rokid智能眼镜就是这个“外挂”的载体——它很轻便,工人戴在脸上,不影响手里干活,还能实现不少实用功能。 七、总结这篇文章讲的电力巡检安全系统,核心就是用RokidCXR-MSDK做了两件事:一是让AR眼镜能高亮提醒高压危险区,二是让眼镜能语音喊安全提示。 实际测试证明,这套系统确实能减少安全事故,让巡检更有效率,也能看出来AR技术在工业安全领域的潜力。未来,AR眼镜可能会成为一线工人的“标配”,就像现在的安全帽一样,时刻守护大家的安全。
操作系统层面 cpu监控 1[root@zst data]# sar -u 10 3Linux 2.6.32-642.el6.x86_64 (zst) 09/22/2017 _x86_64_ (8 0.03 93.40 内存监控 1[root@zst data]# sar -r 10 3Linux 2.6.32-642.el6.x86_64 (zst) 09/22/2017 _x86_64_ (8 18774068 37.81 I/O监控 1[root@zst data]# sar -b 10 3Linux 2.6.32-642.el6.x86_64 (zst) 09/22/2017 _x86_64_ (8 MySQL本身 MySQL本身的监控应该包含重点参数的检查,MySQL状态的检查,除此以外还应该包含自增id的使用情况(小心因为自增id使用满了 不能insert写入从而引发报警哦),及主从健康状态的巡检 中间件的巡检 mycat && proxysql 这些中间件的巡检,首先参考系统巡检,再看一下中间件本身的日志类和状态类信息,网络延迟或丢包的检查,也是必须要做工作。
对于生产制造型企业而言,随着企业规模的扩大和产量的增加,生产设备的稳定和安全运行就成为企业效益的重要保障。 减少设备故障、科学合理保养设备以延长设备的生命周期,从而杜绝设备的安全隐患,避免因设备停工带来的损失成为企业管理者们关注的重点。设备巡检是保证设备安全和稳定运行的一项重要工作。 通过定期和规律的设备巡检,企业管理者可实时掌握设备的运行情况以及健康情况,今早发现潜在的安全问题和隐患,从而采取有效的维护和保养措施,以提升设备的可利用率。 2) 可设置巡检定位和拍照,实现高效巡检管理员创建巡检方案后,系统可根据周期自动生成巡检任务,分配给巡检人员。可设置巡检定位、拍照以及巡检班组、巡检路线、巡检点等。巡检人员根据设置的巡检路线进行巡检。 3) 实时掌握巡检数据,多维度巡检数据分析通过易点易动设备巡检解决方案自动生成多维度的巡检数据报表,让管理者可实时掌握设备巡检状态、巡检点统计、班组巡检统计、整改统计、巡检点整改统计等,从而可以进一步优化巡检工作和巡检人员管理
系统巡检是对于服务巡检的第一站,所以在这里我们要做好第一班岗,如果系统巡检稀里糊涂,那么后续的数据库服务巡检效果也会大打折扣。 对于系统巡检整体上有如下的一些部分需要注意: ? 可能整体看起来没有太深入的理解,但是和实践结合起来就有很多的注意事项,我们就以硬件信息-ILO状态检查为例来提供一种巡检思路,iLO(Integrated Lights-Out)服务基于惠普的远程控制卡服务 (6) iLO页面和JAVA的版本关系 这两点比较微妙,但是在实际中碰到问题的时候更多,特别是对于Java,如果查看新版本的硬件,过高的版本是不推荐的,因为安全策略太高,导致初始化失败,得用JAVA7 在主机层面需要注意如下的两点: (1) 操作系统版本 操作系统的版本也需要提前规划,如果有些服务的版本过旧,需要考虑升级到一个较新的稳定版本,比如RedHat 5是个相对较旧的版本,需要尽可能升级到6U8以上版本 在安全检查方面,有如下的几点补充: (1) 系统文件权限 对于部分文件,需要考虑文件的权限,保证不会恶意篡改。
如果云数据库 MySQL 中只存在 root 账号,而没有其他应用/业务账号,说明业务在访问数据库的时候可能存在权限过大的问题,可以访问业务数据之外的其他数据,如果出现误操作或恶意操作降回严重影响数据的安全
客户反馈后,技术服务专家协助客户,梳理了客户验证码业务到调用链,排查了敏感信息在业务架构中的流转情况,定位到架构中数据库的安全组开放公网可访问,数据库数据泄漏。 云顾问解决方案 通过云顾问巡检到所有的开放公网可访问的安全组风险点,在与客户进行反馈后,客户收紧了其安全组配置。整体架构优化完成后,未再出现用户投诉收到骚扰短信的情况。 案例2 背景描述 某客户会对不同应用使用公网链路测试,有时候系统登录不上或卡顿,影响测试进度,经排查发现是安全组入站规则全部放行导致木马入侵。 云顾问解决方案 通过云顾问巡检发现了其他的安全组有类似的过度放开端口的情况,及时提醒客户将涉及到的安全组规则进行调整。
这里简单的补充几个,用python包装一下即可集成到数据库巡检任务平台。 CN.most_recent_sql_handle) AS ST where CN.session_id = ${上一步查出来的BSID} 用python处理下,大致这样,还可以优化下通过钉钉告警出来: 长事务巡检 Committed' WHEN 7 THEN 'Transaction Rolling Back' WHEN 8
一、核心原理:空间锚定与虚实叠加AR 巡检通过技术手段建立物理巡检场景与数字信息模型的一一对应关系,它可以对真实空间进行数字增强,提神工人的感知能力。 交互显示层:通过 AR 终端实现人机交互,支持手势控制、语音指令(如 “显示设备历史缺陷”),让巡检人员无需手持操作设备,解放双手,提升作业安全性。 三、实现流程以工业设备巡检为例,AR 巡检的典型流程的为:预处理阶段:采集巡检区域的环境数据,构建数字孪生模型,录入设备参数、检修标准、应急预案等信息,完成 AR 系统的场景标定(即建立虚拟坐标与物理坐标的映射关系 数据反馈阶段:巡检过程中产生的缺陷记录、图像、传感器数据自动上传至后台管理系统,更新设备档案,形成巡检报告,为后续维护计划制定提供数据支撑。 将模型绑定到锚点(虚实位置精准对应) AnchorNode anchorNode = new AnchorNode(anchor); 8.
这种情况下,可以使用线上巡检机制。 线上巡检机制可以把它理解为实时的进行轮训监控,如果一旦服务出现问题,触发报警的机制通知相关的人员进行紧急的处理。 针对线上巡检的机制可以沿着两个维度来思考,一个是单纯的验证服务的可用性,也就是服务返回200的状态码认为服务是可用的,另外一种是结合业务场景来进行,因为服务返回200的状态码不代表服务提供的业务场景是可用的 /usr/bin/env python # -*- coding:utf-8 -*- #author:无涯 import requests def test_service_available():
/bin/bash #主机信息每日巡检 IPADDR=$(ifconfig eth0|grep 'inet addr'|awk -F '[ :]' '{print $13}') #环境变量PATH没设好 #SNMP OK report_NTP="" #NTP ok report_JDK="" #JDK版本 ok function version(){ echo "" echo "" echo "系统巡检脚本 Mounted on/Mounted/'> /tmp/disk join /tmp/disk /tmp/inode | awk '{print $1,$2,"|",$3,$4,$5,$6,"|",$8, sysconfig/i18n | grep -v "^#" | awk -F '"' '{print $2}')" else default_LANG=$LANG fi export LANG="en_US.UTF-8" 执行检查并保存检查结果 check > $RESULTFILE echo "检查结果:$RESULTFILE" echo -e "`date "+%Y-%m-%d %H:%M:%S"` 阿里云PHP企业平台巡检报告
设备巡检是指对生产设备进行定期的检查、维护和保养,以确保设备的正常运行和安全性。设备巡检是企业生产管理的重要环节,关系到企业的生产效率、质量和成本。 传统的设备巡检方式主要依靠人工进行,存在以下几个问题: 人工巡检效率低,耗时长,容易出错; 人工巡检难以覆盖所有的设备和部位,容易遗漏重要的故障点; 人工巡检难以形成完整的数据记录和分析,难以提供及时有效的决策支持 ; 人工巡检存在虚假巡检,人员直接填写单子,却并没有到现场检查。 易点易动设备巡检系统具有以下几个优点: 通过手机二维码巡检提高了设备巡检效率,节省了人力资源和时间成本; 提高了设备巡检质量,减少了漏检和误报率; 提高了设备运行状态的透明度,增强了数据驱动的决策能力; 总之,易点易动设备巡检系统是一种有效代替人工巡检的新方法,通过综合应用多种先进技术,使得对生产设备进行更加高效、准确、及时和安全地管理。未来随着技术进步与创新,在更多领域将会有更多应用场景出现。
我常跟人讲一个账:每周投入2小时做巡检,换来的是对千万级损失的主动防御。对券商来说,这不是可选项,这是《证券公司信息系统安全运营管理指引》里白纸黑字写着的合规要求,也是保住业务资质的基本生命线。 二、服务器巡检要看哪些东西 坦白讲,巡检这件事看起来复杂,其实拆开来就是五个维度:硬件、系统、RAID、应用、安全。下面一个一个说。 CPU为例: 负载类型 正常 预警 严重 1分钟 Load <8 8-12 >12 5分钟 Load <8 8-12 >12 IO等待(wa) <10% 10-30% >30% Swap使用率超过50% (>1秒即需关注,交易系统对延迟极敏感) tail -10000 /var/log/nginx/access.log | awk '{if($NF>1)print $0}' | wc -l 2.5 安全巡检 安全这块在券商绝对不能跳过。
一、背景需求水库大坝作为防洪度汛的重要设施,其安全问题直接关系到人民群众的生命财产安全。 因此,必须加强对大坝水库的安全管理,对水库除险加固和运行管护要消除存量隐患,实现常态化管理,同时要配套完善重点小型水库雨水情和安全监测设施,实现水库安全鉴定和除险加固常态化。 二、方案设计TSINGSEE青犀水库大坝可视化智能远程监管方案,基于前端现场部署的监控设备,对大坝现场结构安全、气象水文环境等数据进行实时采集与传输,通过4G或有线的方式传输至EasyCVR云平台中进行全天候 24小时高清监控、安全隐患实时分析与告警,实现对大坝安全的动态管理,保障水库大坝安全。 、人员财产安全。
问题描述 检查腾讯云数据库 MySQL 公网安全策略,如果开放公网访问且没有配置安全组规则,则有可能有受到外网攻击,导致应用异常或数据泄露。 解决方案 不建议开放公网访问,如果必须开通公网访问,则建议配置安全组,提升数据库安全性。 首先找到云数据库对应的安全组名,单击操作列的修改规则。 [修改规则] 在安全组规则页面,选择入站规则 --> 添加规则。 [内外网端口] 外网不再需要的时候,尽快关闭外网入口,降低数据库安全风险。 [关闭外网] 注意事项 无
二、需求分析基于电厂巡检的需求,从电厂发展核心三要素中的“安全”与“效率”两方面出发,即“智慧=安全+高效”。 三、方案设计基于以上需求,我们可以通过EasyCVR将电厂各处的监控设备统一接入与管理,同时发挥两个作用:第一:为一键巡检系统巡检佐证,将摄像头安装在待巡检设备指定方位,巡检时调取视频流排查设备完好,并出具巡检正常消息 四、方案优势· 多业务模式支持不仅支持水电、燃煤火电等传统电厂,也支持新能源电站与核电;不仅支持电厂生产安全管理,也支持电厂基建安全管理;· 多终端深度集成支持智能巡检机器人、车辆、手持终端等设备车辆集成 ,实时定位追踪,规划巡检路线、智能作业调度等,促进资源合理利用;· 多系统信息共享支持与电厂的视频监控,门禁―卡通,车辆出入,安全预警,作业过程管理等多套系统有机结合,支持与电方的生产调度、过程监控、故障诊断 、运营管控、可视化运维等不同作业环节高度融合,提升电厂安全与管理效率。
和网络回送地址127.0.0.0/8.)的地址作为源或目的地址。 一个安全组定义了哪些进入的网络流量能被转发给虚机。安全组包含一组防火墙策略,称为安全组规则(Security Group Rule)。 而 qbr 桥是一个简单的网桥,它一头连接的是虚机网卡 eth0 的 tap 设备(比如 tap59cfa0b8-2f),另一头连接 veth pari 的一端(比如qvb59cfa0b8-2f),该 veth 设备的另一端是 OVS 上的端口 qvo59cfa0b8-2f。 | [u'f5377a66-803d-481b-b4c3-a6631e8ab456'] | 402fe6b1-7670-4b6b-84a3-097beed64015 | fa:16:3e:45:6b:8b