腾讯云顾问「云巡检」能力重磅升级,助力企业构建云上风险隐患主动治理体系。进入云巡检,体验"架构-节点-资源-风险"的递进式风险巡检与呈现,全面看清云上架构风险,升级卓越架构治理体系。 FAQ•巡检风险项在架构图中按什么逻辑呈现的? 总体呈现逻辑按“架构-节点-资源-风险”四个层次递进呈现,方便按需关注不同层次的风险情况。•在架构图中如何查找具体某个实例的风险? 可以点击底栏菜单“风险查找”,按云产品/评估项/实例ID三种维度进行风险搜索。•如何获取风险报告? 点击底栏菜单“生成报告”可以获取架构图巡检报告,点击某一个节点则可在打开的侧边抽屉中获取该节点的巡检报告功能展示1. 查看节点风险2. 展开风险详情3. 分配实例风险治理4. 忽略风险5.
为您开箱体验云巡检功能:· 云巡检架构可视化视图“架构-节点-资源-风险”层级呈现· 风险治理分配操作与报告生成· ChatBI查询风险与相关指标【开箱吧腾讯云】云顾问系列节目敬请留意本专栏发布视频。 完整体验云巡检功能,请访问链接:https://console.cloud.tencent.com/advisor
背景:当前云巡检工作存在的主要问题和痛点 随着企业数字化转型的深入,云计算技术已成为企业IT基础设施的核心。腾讯云作为国内领先的云服务提供商,为众多企业提供了丰富的云产品和服务。 然而,随着云资源规模的扩大和复杂度的提升,云资源的管理和维护面临着诸多挑战,特别是在资源巡检方面,存在以下突出问题: 扩展性受限:传统单体架构难以应对不断增长的巡检需求。 高并发压力:大规模云环境下,巡检任务并发量大,给系统带来巨大压力 。 数据洪流冲击:日巡检任务产生数千万条资源数据,对采集、处理、存储提出极高要求。 优化目标:提供高效的云上资源巡检能力 基于上述背景,腾讯云云巡检优化实践的核心目标是提供可扩展、高可靠的云上资源巡检能力,支撑大规模环境下的高效风险管理,具体包括: 架构升级:从单体架构向微服务架构转型 数据处理:负责云上资源数据获取,并将不同云产品的云资源数据统一转换为巡检所需的格式后存储到数据库中。
云顾问云巡检功能一直以来着力于打造云上隐患风险发现能力,当前版本已结合云架构可视化能力,全面升级助力客户聚焦云上架构五大类型风险,持续治理优化打造卓越架构! · 当前已上线云巡检插件,在架构图“治理视图”中可随时启用,全面巡检隐患风险。· 聚焦安全、可靠、性能、成本、服务限制 5 大类别巡检项,支持按架构业务特性启停、定制。 · 即时生成巡检报告,聚焦架构相关风险和趋势呈现,治理成果和进展可随时归档到“数字资产”,也可下载、分享。 · 【即将上线】基于自动巡检和各 region 资源自动生成架构图和风险可视化视图,提升架构绘制和治理效率。(敬请期待,相关问题欢迎联系我们)欢迎立即访问云顾问,体验云巡检!
&& exit 1 function version(){ echo "" echo "" echo "[${date}] >>> `hostname -s` 主机巡检" Hostname=$(uname -n) SELinux=$(/usr/sbin/sestatus | grep "SELinux status: " | awk '{print $3} ') LastReboot=$(who -b | awk '{print $3,$4}') uptime=$(uptime | sed 's/. N;s/\n//;s/ \+/ /;' | awk '{used+=$3} END{print used}') disk_totalSpace=$(df -m | sed '1d;/ /! getSNMPStatus getNTPStatus getInstalledStatus } #执行检查并保存检查结果 check > $RESULTFILE echo -e "\033[44;37m 主机巡检结果存放在
&& exit 1 function version(){ echo "" echo "" echo "[${date}] >>> `hostname -s` 主机巡检" Hostname=$(uname -n) SELinux=$(/usr/sbin/sestatus | grep "SELinux status: " | awk '{print $3} ') LastReboot=$(who -b | awk '{print $3,$4}') uptime=$(uptime | sed 's/. N;s/\n//;s/ \+/ /;' | awk '{used+=$3} END{print used}') disk_totalSpace=$(df -m | sed '1d;/ /! getSNMPStatus getNTPStatus getInstalledStatus } #执行检查并保存检查结果 check > $RESULTFILE echo -e "\033[44;37m 主机巡检结果存放在
操作系统层面 cpu监控 1[root@zst data]# sar -u 10 3Linux 2.6.32-642.el6.x86_64 (zst) 09/22/2017 _x86_64_ (8 steal %idle10:26:54 AM all 0.55 0.00 0.41 5.61 0.03 93.40 内存监控 1[root@zst data]# sar -r 10 3Linux AM 223084 32658252 99.32 143468 16549080 18774068 37.81 I/O监控 1[root@zst data]# sar -b 10 3Linux MySQL本身 MySQL本身的监控应该包含重点参数的检查,MySQL状态的检查,除此以外还应该包含自增id的使用情况(小心因为自增id使用满了 不能insert写入从而引发报警哦),及主从健康状态的巡检 中间件的巡检 mycat && proxysql 这些中间件的巡检,首先参考系统巡检,再看一下中间件本身的日志类和状态类信息,网络延迟或丢包的检查,也是必须要做工作。
系统巡检是对于服务巡检的第一站,所以在这里我们要做好第一班岗,如果系统巡检稀里糊涂,那么后续的数据库服务巡检效果也会大打折扣。 对于系统巡检整体上有如下的一些部分需要注意: ? 可能整体看起来没有太深入的理解,但是和实践结合起来就有很多的注意事项,我们就以硬件信息-ILO状态检查为例来提供一种巡检思路,iLO(Integrated Lights-Out)服务基于惠普的远程控制卡服务 对于iLO服务,我们需要做如下的巡检: (1) 检查ILO可用性和使用情况 (2) ILO模块是否开启 (3) iLO密码检查 (4) iLO超过最大用户连接数限制检查 (5) iLO在不同的硬件产品版本和浏览器的兼容性 modprobe ipmi_watchdog #modprobe ipmi_poweroff # modprobe ipmi_devintf #chkconfig ipmi on (3) (3) 检查操作系统防火墙情况 对于操作系统中的防火墙设定最好能够提供完整的备份,到时候可以在灾备切换的时候用到。
如何让设备巡检人员高质量完成巡检工作呢也是管理者头疼的一个问题。设备巡检工作的难点在哪呢? 对巡检人员而言:巡检人员需要按照巡检任务对设备进行巡检,保证按时完成巡检任务。纸质的巡检表格显然不方便开展巡检工作。没有自动提醒功能的话,很容易漏检,纸质表格数据也容易丢失等。 2) 可设置巡检定位和拍照,实现高效巡检管理员创建巡检方案后,系统可根据周期自动生成巡检任务,分配给巡检人员。可设置巡检定位、拍照以及巡检班组、巡检路线、巡检点等。巡检人员根据设置的巡检路线进行巡检。 抵达相应的巡检点和设备存放处后扫码填写巡检项目,现场定位并对设备进行拍照记录,可有效规避未到场的假巡检等;同时,通过易点易动设备巡检解决方案,可以设置自定义提醒,确保巡检班组人员收到巡检提醒,确保巡检没有遗漏 3) 实时掌握巡检数据,多维度巡检数据分析通过易点易动设备巡检解决方案自动生成多维度的巡检数据报表,让管理者可实时掌握设备巡检状态、巡检点统计、班组巡检统计、整改统计、巡检点整改统计等,从而可以进一步优化巡检工作和巡检人员管理
3招让你体验更聪明的智能巡检智睿视界的巡检系统又升级啦! 初创企业 5 分钟搭建成熟巡检体系,头部品牌 SOP 一键移植。 ②巡检图库:图片数据整合-把 AI 检测、现场巡店、远程巡店、问题整改、定时抓拍这 5 种巡检场景的照片整合在一起。 结合即将上线的「巡检模板诊断」大数据分析功能,让 AI 当你的巡检教练,三步自动优化检查模板,专治各种「漏检盲区」和「无效检查」:数据体检:Mimo 秒读门店历史巡检记录、整改任务、AI 抓拍问题,甚至员工操作习惯 模板自动升级:直接生成细化标准+精准检测项,同步到你的巡检模板。当 AI 生成模板后,管理者可以手动添加/减少巡检项,并自定义打分规则,让巡检模板百分百匹配门店需求。 02 巡检图库,让巡检图片不再「吃灰」无论是哪种巡检方式下拍的图片,都能在「巡检图库」中找到。
问题描述 该巡检项会检查 Mongo DB实例的到期情况,若腾讯云数据库的付费类型为包年包月,未配置自动续费且即将到期,则会触发该隐患的通知。实例过期后可能会导致业务访问受损。
首先,把要巡检的组件列个清单,云主机、容器集群、存储实例、负载均衡、数据库这些核心模块,每一个的数量、规格、部署架构都要摸清楚,避免漏检。 二、核心组件巡检:命令+实操要点(一)计算资源:云主机/容器是根基,绝不能掉链子云主机和容器是业务运行的载体,CPU、内存、磁盘这些资源一旦扛不住,整个服务都可能崩。 1.块存储(云硬盘):挂载和性能都要查先在云控制台看云硬盘状态,有没有脱机、故障的,挂载关系对不对。 2.对象存储(OSS/S3):权限和可用性双验证在控制台看存储桶容量,结合春节业务预期判断空间是否充足,用命令能更精准统计:AWS S3或兼容S3协议的OSS,用aws s3 ls s3://存储桶名 3.
问题描述 该巡检项会检查 MySQL 实例的到期情况,若腾讯云数据库的付费类型为包年包月,未配置自动续费且即将到期,则会触发该隐患的通知。实例过期后可能会导致业务访问受损。
云顾问解决方案 因为数据库在金融客户的数据存储以及调用业务中是非常重要的,且金融客户的重点业务对稳定性需求极高,要求产品在使用过程中得到提前预警和定期优化,所以云顾问对云数据库(MySQL)主从延迟也是重点监控 ,如果近 1 天主从延迟大于 3600s,云顾问会记录为高风险。 大客户售后经理配合客户优化数据库的过程中,依赖云顾问定期对数据库进行巡检,数据库的风险项逐项排除,很好的避免了主从延迟以及库不可用的情况。
云顾问解决方案 大客户售后经理根据云顾问巡检报告上31天内到期所有手动续费的高风险项(比如Redis即将到期),提醒客户。 让客户确认对应实例是否是需要长期使用的;同时,客户也可以随时在云顾问控制台快速找出所有手动续费的实例,及时把业务实例调整为自动续费,避免对线上业务产生影响。
云顾问解决方案 虽然故障原因简单,但业务影响严重。此前客户通过控制台站内信方式和短信提醒方式极其容易漏掉此类通知,而漏掉的后果就是业务直接宕掉。 云顾问会有此类风险的针对性巡检,当license有效期小于15天且未进行更新就扫描出该高风险项,提醒用户及时进行处理和规避。 在此以后,客户再也没有出现此类故障,在提高业务稳定性道路上更进一步。
背景说明 某游戏客户先前对安全问题未给予足够重视,通过API购买云服务器时,批量配置“公网网关”,意味所有业务机器均具备公网访问能力,且未对子机进行公网访问限制,导致多起安全事件发生,对业务产生不可挽回的影响 云顾问解决方案 云顾问隐患扫描出客户所有存在该类风险的云服务器,建议客户将重点业务云服务器公网访问进行限制;并针对后期业务不需要对外访问的云服务器建议不调用“公网网关”功能。
问题描述 1、license是什么 音视频终端 SDK(腾讯云视立方)的腾讯云视立方 License 包括直播推流 License、短视频 License、终端极速高清 License 和腾讯特效 License ,可以在 腾讯云视立方控制台 对各 License 进行 新增和续期 等操作。 若下载的腾讯云视立方版本中,包含直播推流(主播开播和主播观众连麦/主播跨房 PK)、短视频(视频录制编辑/视频上传发布)、终端极速高清和腾讯特效功能模块,则需通过购买对应的云服务的资源包免费获取 License ://cloud.tencent.com/document/product/1449/56980 2、license过期的隐患 若license到期且没有进行续期,则将无法继续使用直播SDK进行推流 3、 1、云直播 控制台 --> 直播SDK --> license管理 https://console.cloud.tencent.com/live/license image.png 2、腾讯云视立方 SDK
问题描述 检查腾讯云数据库 MySQL 主从延迟的情况,若延迟过高,可能会导致数据库 RO 实例被剔除,主从 HA 切换时间过长或者失败等风险。
查看带宽封顶是否开启:云直播 控制台 --> 域名管理 --> 高级配置(此功能默认关闭) image.png 查看带宽具体情况 image.png 带宽触顶的隐患:将限制新增用户的访问,直播请求返回 403 3、警告条件和风险等级 开启封顶配置且近周带宽峰值大于封顶配置值的 95% <--> 高风险 开启封顶配置且近周带宽峰值大于封顶配置值的 70% <--> 中风险 解决方案 4、如何避免? 步骤:云直播 控制台 --> 域名管理 --> 高级配置 --> 带宽封顶配置,点击 “编辑” image.png 限制区域根据该播放域名加速区域类型自行判定,相关使用限制规则如下: image.png ③当加速区域为全球加速时,带宽封顶配置中的限制区域有3个选项,分别是中国大陆(境内)、国际/港澳台(境外)以及全球加速;对于这3个限制区域,用户可以分别进行带宽封顶的配置;但是,若配置了全球加速带宽限制