这周闲得慌,就根据需求写了差不多20个脚本(部分是之前分享过的做了一些改进),今天主要分享一个给平时运维人员用的centos7系统巡检的脚本,或者排查问题检查系统情况也可以用.. 实用脚本 #! && exit 1 function version(){ echo "" echo "" echo "[${date}] >>> `hostname -s` 主机巡检" getSNMPStatus getNTPStatus getInstalledStatus } #执行检查并保存检查结果 check > $RESULTFILE echo -e "\033[44;37m 主机巡检结果存放在 uploadHostDailyCheckApi" 2>/dev/null cat $RESULTFILE ---- 执行脚本结果: [2020-11-10-14:54:03] >>> HNGC-SVR-QCCBigDataSvr-Dev1 主机巡检 -56.el7.noarch 2018年05月07日 星期一 11时32分42秒 iwl6000g2a-firmware-17.168.5.3-56.el7.noarch 2018年05月07日
print(filename) sftp_down_file(host,port,username,password,filename, "D:/大数据数据/%s"%(n[0])) 执行后自动巡检 /bin/bash #主机信息每日巡检 IPADDR=$(ifconfig eth0|grep 'inet addr'|awk -F '[ :]' '{print $13}') #环境变量PATH没设好 report_NTP="" #NTP ok report_JDK="" #JDK版本 ok function version(){ echo "" echo "" echo "系统巡检脚本 echo "############################ 内存检查 ############################" if [[ $centosVersion < 7 ######################### 服务检查 ############################" echo "" if [[ $centosVersion > 7
为了满足日常工作中的巡检,可以基于Prometheus实现自动巡检,减轻部分运维压力。 巡检报告:便于查看、导出巡检结果。 巡检通知:巡检结果可以通知到企业微信群,便于业务方快速知道目前整个系统有没有问题。 Markdown格式 content = fmt.Sprintf(`{ "msgtype": "markdown", "markdown": { "content": "# 自动化巡检结果通知 最后 大部分企业虽然都有监控告警,但是自动化巡检在日常的运维工作中还是必要的,它可以聚合目前系统、集群存在的问题,避免遗漏告警信息。 另外,在AI发展迅猛的今天,可以把AI也结合到自动化巡检中,比如在巡检中增加一些AI预测,AI故障诊断、AI根因分析等功能。
概述 脚本功能功能是全程模拟了人的手工巡检,并收集数据,处理后发送邮件。 将文件中的数据如11%提取部分需要计算出来;创建excel表格,将上一步获取到的数据填写到表格中;编写固定格式的邮件内容,并将保存好的excel表格附到邮件中发送;编写crontab定时任务,实现全程自动化 ,'%s'%file_list[1][:-4],style3) cisco.write_merge(7,12,1,1,'%s'%ip[1],style3) cisco.write (7,2, '电源状态',style1) cisco.write(8,2, 'cpu使用率',style1) cisco.write(9,2, '运行时间',style1 ps:本邮件由系统自动发送,如有任何问题请联系*** Best Wishes 邮件配置 /etc/mail.rc set from=邮箱地址 smtp=邮箱服务器 smtp-auth-user
2)、cpu信息3)、ip网络信息4)、cpu使用率5)、连接数信息6)、系统限制信息7)、内存使用信息8)、磁盘使用信息9)、网络流量情况/系统资源变化10)、cpu消耗情况前10排行11)、cpu消耗按内存情况前 /linux_Inspection.sh#巡检脚本已上传,由于上传不支持sh格式,改为txt#巡检效果#执行完巡检之后,将在脚本所在的路径下生成html巡检结果报告,如下192.168.3.147os_linux_summary.html #巡检效果#若报错syntax error near unexpected token `$'{\r'则转换一下linux格式#! ]+Speed/{print "|" $2}' \ |grep -v "No Module Installed" \ |awk -F"|" '{print $4,"|", $2,"|", $7, txt /tmp/tmpdf2_`date +%y%m%d`.txt\ |awk '{print $1,"|", $2,"|", $3,"|", $4,"|", $5,"|", $6,"|", $7,
自动化巡检解决方案:从“人海战术”到“智能防乱”的运维革命1. 方案背景:传统人工巡检的困境与挑战在当今数字化时代,企业的IT架构日益复杂,混合云、分布式、信创环境成为常态。 方案概述:志栋智能SAB全流程智能自动化巡检本方案旨在构建一个 “计划-执行-分析-报告-处置” 的全流程闭环自动化巡检体系。 自动化巡检闭环示意图(示意图:自动化巡检“计划-执行-分析-报告-处置”闭环流程)3. 方案核心功能模块模块一:触发式巡检计划与策略中心多维度对象管理:支持按单台设备、设备组或全量设备进行巡检。 脚本与无代码化操作:支持封装常用巡检命令,也提供图形化拖拽式流程编排器,降低自动化门槛,让运维人员可快速自定义巡检流程。 自动化巡检平台界面示意图(示意图:自动化巡检平台仪表盘、详细报告及流程编排器界面)5.
所以运维自动化巡检就是把对网络、服务器、服务/应用的巡检手动操作转变成自动化的形式。许多情况下运维巡检的自动化也存在诸多问题,以下列出场景的几点供参考。 在做统一巡检时就需要解决网络不通或者要开大量防火墙/网络策略的问题,流程麻烦且安全不好管控。嘉为蓝鲸自动化巡检中心,可以完美解决以上问题乃至巡检中更多的其他问题。 自动化巡检中心可以改变运维人员传统重复手动巡检的工作方式,支持用户自定义巡检脚本和巡检对象,覆盖即时性、周期性等巡检场景,可以根据任务计划实现自动化巡检并生成标准可视化报告,从而减少巡检工作量并提高巡检有效性 支持多数据中心:集成蓝鲸管控+作业平台能力,执行巡检任务时基本无需担心网络问题。7. 高效执行:单任务轻松支持数百台设备/IT对象同时进行巡检,同时可多任务同时执行,极大降低运维人员的工作量。 通过嘉为蓝鲸自动化巡检中心,可以帮助企业提高巡检效率、降低工作量、减低操作中的人为失误风险。更全面有效的及时发现系统中存在的隐患和问题,提升巡检有效性,保障业务更平稳的运行。
#脚本中 ifconfig、mpstat、iostat命令有依赖,需要安装相关依赖包 yum -y install bc sysstat net-tools 巡检项信息,可根据实际需求修改增加 1) 、系统基本信息 2)、cpu信息 3)、ip网络信息 4)、cpu使用率 5)、连接数信息 6)、系统限制信息 7)、内存使用信息 8)、磁盘使用信息 9)、网络流量情况/系统资源变化 10)、cpu消耗情况前 10排行 11)、cpu消耗按内存情况前10排行 12)、磁盘io情况 13)、系统定时任务列表 14)、系统定时任务脚本内容 #给巡检脚本授权 chmod 755 linux_Inspection.sh /linux_Inspection.sh #巡检脚本已上传,由于上传不支持sh格式,改为txt #巡检效果 #执行完巡检之后,将在脚本所在的路径下生成html巡检结果报告,如下 192.168.3.147os_linux_summary.html #巡检效果
KubeSphere 团队积累了来自社区用户和商业客户三年多的 Kubernetes 集群生产环境运维经验,精通集群组件运行与排查原理,从而开发了一款集群自动巡检工具帮助用户解决集群日常运维的痛点。 KubeEye 是什么 KubeEye 是一款开源的 Kubernetes 集群自动巡检工具,旨在自动检测发现 Kubernetes 上的各种问题,比如应用配置错误、集群组件不健康和节点问题,帮助集群管理员更好地管理集群降低风险 预置检查项 目前已内置支持以下巡检项,未标注的项目正在开发中。 KubeEye 执行自动巡检: root@node1:# ke diag NODENAME SEVERITY HEARTBEATTIME REASON bytes, but freed 416077545 bytes default Warning nginx-b8ffcf679-q4n9v.16491643e6b68cd7
一、 前言 1、由于每月月底都需要对一些oracle数据库环境进行一些简单的巡检,而通过运行一条条语句,并依依去截图保存到word文档中效率低下,所以这里我就将手工巡检过程编写成shell脚本来提高巡检效率 2、脚本简单容易二次编辑,本文仅提供简单巡检的事项,如数据表空间是否自动扩展、是否开启归档等,大家根据实际需要编辑修改,增加符合自己公司需求的巡检报告。 ,将在脚本所在的路径下生成html巡检结果报告,如下 192.168.35.244os_oracle_summary.html 4、巡检项信息如下(其他统计项可根据实际需要自行添加) 0)、巡检ip信息 1)、数据库版本 2)、是否开启归档,及归档磁盘占用率与路径信息 3)、数据库memory/sga/pga信息 4)、数据表空间是否自动扩展 5)、数据库当前分配的数据表空间使用率信息 四、脚本内容 ora_sql.sql>>/tmp/tmpora_pga_`date +%y%m%d`.txt } ora_dbfile_info(){ echo "######################## 4.表空间是否自动扩展
#脚本中 ifconfig、mpstat、iostat命令有依赖,需要安装相关依赖包 yum -y install bc sysstat net-tools 巡检项信息,可根据实际需求修改增加 1) 、系统基本信息 2)、cpu信息 3)、ip网络信息 4)、cpu使用率 5)、连接数信息 6)、系统限制信息 7)、内存使用信息 8)、磁盘使用信息 9)、网络流量情况/系统资源变化 10)、cpu消耗情况前 10排行 11)、cpu消耗按内存情况前10排行 12)、磁盘io情况 13)、系统定时任务列表 14)、系统定时任务脚本内容 #给巡检脚本授权 chmod 755 linux_Inspection.sh /linux_Inspection.sh #巡检脚本已上传,由于上传不支持sh格式,改为txt #巡检效果 #执行完巡检之后,将在脚本所在的路径下生成html巡检结果报告,如下 192.168.3.147os_linux_summary.html #巡检效果
没错,这次我结合工作运用场景在现网环境服务器上部署了一个自动巡检多个接口地址是否正常并按 crontab 定时任务通过企业微信机器人以文本的形式发送到告警群的脚本。
LS-NET-005-DeepSeek自动生成巡检报告 01 测试环境搭建 本次测试环境基于ENSP(Enterprise Network Simulation Platform)构建,测试设备为CE12800 该文件需与Python巡检脚本位于同一目录下。 文件内容格式如下: 10.255.255.11 10.255.255.12 04 巡检脚本 使用提供的Python脚本进行设备巡检。 脚本通过SSH连接到设备,执行预定义的巡检命令,并将结果生成分析报告。 : 待分析内容 :return: 分析结果字符串 """ client = OpenAI(api_key='sk-90786556fa8046b28042bf5b2c0276d7' f"[{get_timestamp()}] 已清理临时文件") if __name__ == "__main__": main() 脚本执行过程如下: 05 查看报告 运行脚本后,系统将自动生成一份带时间戳的分析报告文件
人工巡检之后,发现设备上有硬盘告警灯。监控软件下又无法查看到系统是JBOD还是做了raid。巡检中,数据库服务器出现硬盘告警,监控软件在这种时候却帮不上忙。 如果不是人工巡检,甚至可能都没有发现这个严重告警。 事例2:某客户的核心业务服务器配置双电源,却在一次电源故障中出现了服务器掉电问题。 带外解带内之困,远离人工巡检 从专业的角度来看,网络管理可分为带外管理(out-of-band)和带内管理(in-band)两种管理模式。 带外监控的轮训周期可以达到秒级,而人工巡检的工作量大,以日为周期已经是相当大的巡检密度了。通过带内监控来弥补带外监控的部分空缺,可以极大的提升运维效率,真正意义上实现无需人工巡检。 通过DCOS的监控、分析功能,可以有效的替代对于小型机、X86服务器、存储设备、备份带库、光纤交换机等设备的人工机房巡检。这种方式大大节省了人工巡检所需的人力,也提高了巡检的效率。
解决方案与应用效果 设备状态监测与自动维护提示:AI系统能够自动分析巡检报告中的设备状态信息(如温度、电流、电压等),并与设备历史数据进行比对。 二、技术要点:AI如何实现自动化分析与预警1. 信息抽取与自动化分析AI系统通过信息抽取技术自动从巡检报告中提取关键信息,如温度、湿度、电流、电压等设备参数。 高效数据处理与自动化报告生成AI系统具备强大的数据处理能力,能够快速处理大量巡检报告和传感器数据。 例如,系统可以在短短几分钟内对数百页的巡检报告进行自动分析,并生成设备健康状态的总结报告,为运维人员提供精确、即时的决策支持。2. 实时监控与24小时自动巡检AI系统具备24小时自动巡检与实时监控功能,能够持续跟踪电网设备的运行状态。
人工巡检之后,发现设备上有硬盘告警灯。监控软件下又无法查看到系统是JBOD还是做了raid。巡检中,数据库服务器出现硬盘告警,监控软件在这种时候却帮不上忙。 如果不是人工巡检,甚至可能都没有发现这个严重告警。 事例2:某客户的核心业务服务器配置双电源,却在一次电源故障中出现了服务器掉电问题。 带外解带内之困,远离人工巡检 从专业的角度来看,网络管理可分为带外管理(out-of-band)和带内管理(in-band)两种管理模式。 带外监控的轮训周期可以达到秒级,而人工巡检的工作量大,以日为周期已经是相当大的巡检密度了。通过带内监控来弥补带外监控的部分空缺,可以极大的提升运维效率,真正意义上实现无需人工巡检。 通过DCOS的监控、分析功能,可以有效的替代对于小型机、X86服务器、存储设备、备份带库、光纤交换机等设备的人工机房巡检。这种方式大大节省了人工巡检所需的人力,也提高了巡检的效率。
作为一个运维工程师,巡检少不了,如何做一个MySQL的自动巡检脚本(语言不限),最好能提供一些巡检指标、巡检项目、巡检语句的解释、最终的巡检文件等等。 本文是根据公众号@墨天轮的,根据这个文章 https://mp.weixin.qq.com/s/jHs7_lerBBIeDBDXraGW5Q 。 文章末尾有获取shell的巡检脚本和《MySQL数据库巡检报告模板.pdf》的方法。 like 'aborted%';开启 binlog 日志binlog 日志开启,能实时记录保存DML 操作show variables like 'log_bin%';binlog 保留天数让mysql 自动清理若干天前的 show variables like '%slow%';慢查询查询时间show variables like 'long_query_time%';获取pdf和脚本关注公众号,关注公众号回复"MySQL巡检
前段时间在GitHub[1]上发现了一个Ansible巡检服务的Roles, 今天给大家分享一下! 1Ansible自动化实现巡检 思路:通过使用Ansible Role的方式对Linux系统进行资源巡检,生成巡检报告后通过邮件发送给接收人。 2测试的环境 ansible [core 2.12.2] os `Centos 7 X64` python version = 3.10.2 (main, Feb 2 2022, 06:19:27) 6Oss-check Roles数据阈值的分组 采集出的数据,会通过设置好的阈值分为三个档次, OK: < 80 Bad评判条件: 80 <= 使用率 < 90, Critical评判条件: 使用率 >= 90 7定期执行扫描 集群节点扫描一般都是主动查看集群运行状态,主观判断的集群节点运行的状态,一般都会在节假日之前进行扫描一次,当然也可以通过自动化工具进行定期扫描,比如jenkins. 8如何跑起来?
binlog_cache_size 值并使用临时文件 3Binlog_cache_use 4使用临时二进制日志缓冲的事务数量 5Binlog_stmt_cache_disk_use 6当非事务语句使用二进制日志缓存 7Binlog_stmt_cache_use 使用二进制日志缓冲非事务语句数量 链接数 1Connections 2试图连接到(不管成不成功)mysql服务器的链接数 临时表 1Created_tmp_disk_tables 2服务器执行语句时,在硬盘上自动创建的临时表的数量 ,是指在排序时,内存不够用(tmp_table_size小于需要排序的结果集),所以需要创建基于磁盘的临时表进行排序 3Created_tmp_files 4服务器执行语句时自动创建的内存中的临时表的数量 根据索引读一行的请求数,如果较高,说明查询和表的索引正确 5Handler_read_last 查询读索引最后一个索引键请求数 6Handler_read_next 按照索引顺序读下一行的请求数 7Handler_read_prev 中间件的巡检 mycat && proxysql 这些中间件的巡检,首先参考系统巡检,再看一下中间件本身的日志类和状态类信息,网络延迟或丢包的检查,也是必须要做工作。
如何让设备巡检人员高质量完成巡检工作呢也是管理者头疼的一个问题。设备巡检工作的难点在哪呢? 对巡检人员而言:巡检人员需要按照巡检任务对设备进行巡检,保证按时完成巡检任务。纸质的巡检表格显然不方便开展巡检工作。没有自动提醒功能的话,很容易漏检,纸质表格数据也容易丢失等。 2) 可设置巡检定位和拍照,实现高效巡检管理员创建巡检方案后,系统可根据周期自动生成巡检任务,分配给巡检人员。可设置巡检定位、拍照以及巡检班组、巡检路线、巡检点等。巡检人员根据设置的巡检路线进行巡检。 抵达相应的巡检点和设备存放处后扫码填写巡检项目,现场定位并对设备进行拍照记录,可有效规避未到场的假巡检等;同时,通过易点易动设备巡检解决方案,可以设置自定义提醒,确保巡检班组人员收到巡检提醒,确保巡检没有遗漏 3) 实时掌握巡检数据,多维度巡检数据分析通过易点易动设备巡检解决方案自动生成多维度的巡检数据报表,让管理者可实时掌握设备巡检状态、巡检点统计、班组巡检统计、整改统计、巡检点整改统计等,从而可以进一步优化巡检工作和巡检人员管理