首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏互联网运维杂谈

    IT:从运营

    “诗和远方”:-) 总体来看,大多数人认为两者含义并不完全一样,很多人都认为IT运营比IT的层次更高,有些成熟度较高的大型IT组织已经提出并在执行“从ITIT运营”的发展规划。 BSM、云计算、大数据等新的理念、技术和工具的出现、发展和变迁,都和IT正逐步开始从走向运营有密切关系,时至今日,从全局角度来看,可以说企业IT已经站在了从运营的一个重要拐点上。 IT阶段,IT组织更多地还是在解决三类人的基本需求,让用户能用,让老板批钱,让员工干活,当然也希望大家更满意,但受限于阶段性能力和各方面因素,先能保证这些基本需求就已经很不容易了,而做到这些,在相当长时间内也已经足够 假如IT部门不能与时俱进,还是停留在满足基本需求上,而不主动向追求卓越的运营迈进,提供更有竞争力的优质IT服务,那就很可能会在几年后会碰到更大的挑战。 以上是关于ITIT运营的一些不成熟的思考,抛砖引玉,希望能得到大家的批评和指教。

    7.5K54发布于 2019-11-20
  • 来自专栏运维经验分享

    CentOS 7 优化 原

    CentOS 7 优化 一般的,我们安装CentOS mini和其他相应服务后,就能正常工作了。但工作一段时间后,服务器会出现不稳定、被入侵、甚至在突然的高并发时直接瘫痪状况。 所以,在这里提供一些优化的建议。 1.关闭不需要的服务 众所周知,服务越少,系统占用的资源就会越少, 所以应当关闭不需要的服务。 8 9 10 11 12 13 这段代码使 init 打开了6个控制台,可分则用 ALT + F1 ALT + F6 控制台默认都驻留在内存中。 其默认值很小,这里改为1000065000。建议不要将这里的最低值设得太低,否则可能会占用正常的端口。 8 9 当然这些都只是最基本的更改,大家还可以根据自己的需求来更改内核的设置,比如我们的线上机器在高并发的情况下,经常会出现 ‘‘TCP:too many orpharned sockets ” 的报错尽量也要本着服务器稳定的最高原则

    2.8K20发布于 2019-03-11
  • 来自专栏前沿技墅

    从ITOMAIOps:IT管理向智能的进化

    当前传统的 ITOM 工具往往缺乏分析能力,虽然也能采集数据,但无法对这些数据所包含的信息进行洞察,更加无法将数据进行知识化的本质提升。 AIOps 为IT提供了全新的管理思路。AIOps 的定义涵盖的两个阶段,可概括为两个层次的提升:数据信息分析层次的提升;信息知识提取层次的提升。 ? 从数据信息的分析,更多的是采用数据统计方法,帮助相关人员更好地从众多运数据中了解系统的运行状态,分析并定位故障,实时获取统计数据。 2022年,40% 的大型企业会通过大数据和机器学习的能力来帮助甚至逐渐取代传统中的监控、服务台及自动化流程。 在信息架构与应用系统日渐庞大的今天,如果再通过人工分析定位的方式,很难适应目前日益快速增长的业务需求

    5.7K50发布于 2018-06-08
  • 来自专栏博文视点Broadview

    人员7*24值班拯救指南

    人员经常需要在周末出去游玩的时候也带着电脑,因为很多情况下人员需要随时待命。笔者依稀记得2014年左右,我们10多个小伙伴团建时背着5斤重的电脑爬青城山的壮丽场面。 (1)业务线较多,不同的问题得由不同的人员跟进。 (2)开发人员、客服、测试人员都会给人员反馈问题,流程混乱,人员长时间处于被动接受的状态。 ,这种时候值班人员既要承担应急工作,又要执行各种协调任务,效率大打折扣。 (2)业务开发值班人员需要满足7×24小时的待命计划,并且主备两个角色。 (3)正常工作中,参与值班的开发人员的工作需要包含但不仅限于以下内容。 (1)外部反馈了一件琐事,值班人员接手了这件事,却发现他并不擅长处理这件事,只有另一位人员才能处理,但如果转给另一位人员,那么自己就变成了反向代理,转发各种需求,但如果不做转发,自己一时半会儿搞不定

    1.6K20编辑于 2023-08-10
  • 来自专栏腾讯云大数据

    Flink 实践教程-进阶(7):基础

    在正式运行之前请检查:  类名是否有拼写错误 确定是否将相关的业务代码依赖打进 JAR 包中 基础 作业监控 流计算 Oceanus 提供强大的作业监控能力,我们可以通过【监控】项查看作业的各项指标 ,包括每秒数据流入条数、每秒数据流出条数、算计计算总耗时、目的端 Watermark 延时、作业重启次数,甚至更细化 CheckPoint、JobManager、TaskManager、Task 内的各项细化指标 作业失败:通过 from RUNNING to FAILED 关键字可以搜索作业崩溃的直接原因,异常栈中的 Caused by 后即为故障信息。 之后介绍了下作业启动之后的一些基础手段,包括实时监控和告警通知,方便用户及时了解作业的具体运行情况。最后介绍了在作业失败之后通过日志关键字定位问题的方法,具体可以查看 日志诊断指南[6]。 document/product/849/53959 流计算 Oceanus 限量秒杀专享活动火爆进行中↓↓ 点击文末「阅读原文」,了解腾讯云流计算 Oceanus 更多信息~ 腾讯云大数据 长按二

    3.1K11编辑于 2022-01-21
  • 来自专栏DBA随笔

    MongoDB与开发(7)---MongoDB监控

    // MongoDB与开发(7)---MongoDB监控 // MongoDB中自带两个监控的工具,分别是mongostat和mongotop,今天我们看看这两个工具的使用方法。

    1.4K10发布于 2020-11-26
  • 来自专栏云计算与大数据

    :记录因grpc需求而引发的glibc故障

    背景需求: 准备使用grpc作为服务组间的服务通信协议 问题发生: 本地开发采用mac开发,依赖如下: <dependency> <groupId>org.lognet</groupId /44085753 https://help.aliyun.com/knowledge_detail/41478.html#%E9%80%9A%E8%BF%87%E5%9B%9E%E6%BB%9A%E7% A3%81%E7%9B%98%E6%81%A2%E5%A4%8D

    1.1K20发布于 2018-12-17
  • 日志服务 MCP Server,让大模型 “听懂” 需求

    日常工作中,及研发同事经常需要查询日志来排查系统异常问题,每次查询日志都需要登录监控系统、查找监控资源、编写日志查询语句,最后再逐行查看日志。这实在是太麻烦了,严重影响了工作效率。 无论是技术小白还是资深,都能轻松上手,大幅提升日志查询效率。 自然语言生成查询语句:只需用日常语言描述需求,MCP Server自动生成精准的日志查询语句典型使用场景 1. 排障:当系统出现异常时,大模型智能分析当前错误日志,快速定位问题 2. 上报日志腾讯云日志服务:您可将日志上报至日志服务,使用真实的日志进行查询。也可使用日志服务免费的Demo日志,开启方式详见产品文档。本文以负载均衡CLB Demo日志为例进行演示。 2.

    1.8M34编辑于 2025-08-08
  • 来自专栏华汇数据服务

    数字经济浪潮下的国产化需求

    基于IT、动环、智能物联网、工业物联网的一体化监控需求,不断涌现。这与近两年技术和产品的升级换代,以及越来越多的智能终端在极短的窗口期进入各行业有很大关系。 平台需要满足新增需求并服务于各种应用场景,一个无可回避的问题已经浮上水面: 如何有效这些基础设施? 当前市场上的应对方式,是加大在IT服务方面的投入。 根据前几年中国IT服务市场的发展形式和对未来发展趋势的分析,我国IT服务市场未来几年需求仍然会比较旺盛,前瞻产业研究院预测 2025 年我国IT服务市场规模将达到 3668 亿元左右。 除了产业升级、扩大产能等客观需求,一些外在因素使得国内的IT升级较之西方发达国家,面临更为猛烈、也更为无序的开局。 科技因素。 老旧的模式、维系统早已完成IT从无有的历史使命,成为鸡肋;新的模式缺少“吃螃蟹”验证。无数的行业需求举棋不定,以至于还在复刻“流程和标准规范化”的模式,争取让业务增量跑赢人力成本。

    80720编辑于 2022-09-01
  • 来自专栏云+技术

    从传统演进历程之软件定义存储(二)

    许多Ceph新手在测试环节以及预生产的时候会对Ceph集群的部署以及调优产生困扰,A公司小哥也遇到了部署和调优问题。下面来看看A公司小哥是如何解决这个问题的。 关卡二:部署调优关(部署) 难度:三颗星 上篇文章开头我也说到了,部署Ceph是新手的噩梦,对于传统来说部署一套Ceph是很难的事情,A公司小哥在官网以及Ceph中国社区的相关资料和帮助下才渐渐熟悉了什么是 而此时就是考验一个人员的处理故障的基本素质,好在这个小哥有过一两年的经验,经过基本排查,最终确定了是时间问题。由于三个节点时间不一致而导致的这个问题,这里称之为“OSD打摆子”。 图7:Ceph节点3 其实在开始部署Ceph的环境准备环节就说到了要配置NTP服务器,然而大部分人容易忽略。其实在任何时候时间问题是排在第一位的,下面举两个例子说明下因为时间问题而产生的一些问题。 所以云平台也好存储也好,都会因为时间而产生不必要的故障问题,建议人员要注重时间问题。 ? 图8:Ceph集群 好了言归正传,上图是小哥新搭建好的集群。三节点、六个OSD的Ceph小集群。

    1.2K10发布于 2019-04-09
  • 来自专栏云+技术

    从传统演进历程之软件定义存储(一)

    从横向、纵向分可以分为多个维度和层次,本文试图抛开这纷繁复杂的概念,讲述一个传统的企业级人员转型人员,尤其是软件定义存储的之间经历的沟沟坎坎。 随着云计算、大数据以及新兴的区块链等技术体系的迅猛发展,数据中心的扩容建设进入高峰期,云数据中心需求应运而生。 你应该在选择存储介质之前了解集群的工作负载和性能需求。Ceph使用存储介质有两种方法:OSD日志盘和OSD数据盘。Ceph的每一次写操作分两步处理。 下面贴出来A公司小哥根据自己场景需求选择的硬件配置。 欲知后事,且听下文《从传统演进历程之软件定义存储(二)》,主要讲述了A公司小哥在硬件选型完毕之后开始部署Ceph遇到的一些问题以及解决办法。

    1.7K20发布于 2019-04-09
  • 来自专栏云+技术

    从传统演进历程之软件定义存储(四)

    2、影响性能的因素 传统存储的封闭特性带来的优势是从存储操作系统软件专用硬件的深度优化,而软件定义存储、Server SAN的目的是软件和硬件的解耦合,它们带来了灵活性,免除了硬件厂商锁定,但很多时候却不能充分发挥硬件的潜力 同时,由于网络交互在分布式存储中的引入,给存储的整体“时延(latency)”特性带来了挑战,很多分布式存储系统因没有恒定的低时延无法满足高实时性数据库等应用的需求。 引擎已安装,yum install libaio-devel 2、https://pkgs.org/download/fio  下载fio工具RPM包 3、安装 rpm -ivh fio-2.2.8-2.el7.

    2K20发布于 2019-04-09
  • 来自专栏IT大咖说

    谈AIOps基础-从自动化智能化

    在DevOps里面的维和技术运营部分,也没有要求一定要实现智能化程度。 对AIOps智能化的基础理解 ? 在这个阶段完成后我们进入自动化阶段。 而实际对于自动化可以分为以下三个大部分的内容 流程的自动化:包括了巡检,事件问题管理,变更管理,版本发布等 配置库:最基本的配置管理库,从物理资源逻辑资源源代码库服务库 监控的自动化 :自动化数据采集,监控预警,性能分析,后续触发的自动管控操作 对于流程最终往往都涉及操作,操作最终结果涉及配置库信息的变更,而对于监控本身有可能发现类问题并启动相应的流程进行处理 在自动化里面,我们会很强调工具链这个词,即要实现整个自动化涉及诸多的流程协同,底层更是涉及诸多的工具协同,而这些工具本身都是单一的完成一种类型的操作任务,如果这些工具间没有协同和集成起来,那么将直接导致我们整个过程是存在隔离和断点的

    8.6K31发布于 2020-11-03
  • 来自专栏Linux云计算及前后端开发

    曾老湿带你了解运需求-实现自动化平台

    自动化平台功能大纲 核心功能1-Dashboard及展示 核心功能2-资产管理及展示 核心功能3-SQL审核及展示 核心功能4-工具及展示 核心功能5-堡垒机及展示 ---- 自动化平台功能大纲  ---- 工作台  作用:这是我们人员平时写周报,日报,月总结,年总结,绩效考核的地方。 功能实现: 将TXT或者是EXECL集成页面当中即可。 在管理的页面中,也分为三个标签页: ---- 用户 第一个标签页,就是用户,也就是针对用户及用户组的管理,这里涉及用户的权限 员工权限: 1)维权限 2)开发权限 3)测试权限 管理员权限: 所有服务器的权限,都控制在运的手中,所以,所有服务器都看的。 而开发,或许只能看到开发环境的机器,测试只能看到测试环境的机器。 ---- 提交sql 那么问题来了,我开发在生产中,是有需求执行某一条SQL语句,来修改数据,或者修改字段,增加数据的。如何是好?

    88030编辑于 2022-10-31
  • 来自专栏云+技术

    从传统演进历程之软件定义存储(六)完结

    回到最初的Ceph工程师的问题,本系列讲述的是传统向新一代云转型之软件定义存储部分的转型,是企业业务系统从规划、设计、实施、交付到的最后一个步骤,也是重要的步骤。 1.通过tell 命令在线修pool的副本数,并修改配置文件且同步所有节点。  #保险起见,最好把MON和OSD关于副本数的选项都修改。 2. 好了,最后一篇文章到此结束,在本系列开头讲到随着云计算、大数据以及新兴的区块链等技术体系的迅猛发展,数据中心的扩容建设进入高峰期,云数据中心需求应运而生。 因此,云数据中心的对于传统的人员提出了新的能力要求——不仅要熟悉传统硬件设备,同时要掌握虚拟化、云系统的部署、监控和管理等能力。 通过九篇文章简单介绍了下传统向云或者说是传统向SDS的转型之路。

    95220发布于 2019-04-09
  • 来自专栏Cheng's Blog

    】centos7 yum 方式安装nginx

    使用yum安装nginx需要包括Nginx的库,安装Nginx的库 rpm -Uvh http://nginx.org/packages/centos/7/noarch/RPMS/nginx-release-centos -7-0.el7.ngx.noarch.rpm 2.

    83010编辑于 2022-02-25
  • 来自专栏侯哥的Python分享

    MySQL7-Mycat水平分表

    说明6:分片规则使用的是 rule="mod-long" 规则,该规则在rule.xml有定义如下   说明7:继续看 function 中 mod-long 的定义   说明8:这里的count 3的意思是 id主键 按照和3进行取模运算,然后根据取模后的结果,将数据写入不同的数据节点,即有几个数据节点,就会平均的写入数据节点中   说明9:我这里整好配置了三个数据节点,而这里的默认值也是3,所以不用改了 说明2:第二个数据节点即192.168.3.91这个节点,所以id=1的数据只写入这个数据节点上,其他节点上还没有数据。    operate_user, operate_time) values (2, '访问详情页','李四', '2023-12-17 22:55:24');   说明3:按照mod-long算法,id=2的数据被写入192.168.3.92 operate_user, operate_time) values (4, '访问首页','赵六', '2023-12-17 22:09:34');   说明5:按照mod-long算法,id=4的数据被写入192.168.3.91

    70711编辑于 2023-12-18
  • 来自专栏开发运维工程师

    Linux工具|工具7za浅谈

    1、背景前几日,需要从线上环境拉取部分数据导入实验库,将工作告知后,发给我一些文件,文件内容如下格式:xxx7z.001xxx7z.002xxx7z.003xxx7z.004看到这个第一眼,不知道怎么处理了 ,最后告知需要使用7za工具处理。 在 CentOS 5.x 32位下安装7ZIPwget http://pkgs.repoforge.org/p7zip/p7zip-9.20.1-1.el5.rf.i386.rpmrpm -ivh p7zip /p7zip/p7zip-9.20.1-1.el6.rf.i686.rpmrpm -ivh p7zip-9.20.1-1.el6.rf.i686.rpm在 CentOS 6.x 64位下安装7ZIPwget 命令如下:yum install -y p7zip4、使用方法使用7zip的命令是7za。

    1.7K41编辑于 2023-11-21
  • 来自专栏云+技术

    从传统演进历程之软件定义存储(五)中

    关卡五:Ceph灾备神兵利器-故障域 重要度:五颗星 转眼六篇文章过去了,还记得大明湖畔(本系列一)的小哥吗? 勿忘初心,咱们还是回到最初的小哥,小哥经历了硬件选型、部署、调优、测试的一系列转型的关卡,终于就要到最后的上线了。 小哥最初的梦想搭建一个Ceph存储集群,对接云服务,底层存储实现高可用的数据访问架构。 根据存储管理平台的需求和集群规模,需要实现: 将物理环境按高可用的拓扑架构规划好,并且完成存储集群部署。 将24台服务器分别规划在3个机架上,每个机架8台服务器,每个机架设置为一个故障域,创建一个3副本存储资源池,数据副本自动分布不同故障域中,也是分布在不同机架上,保障数据安全。

    82820发布于 2019-04-09
  • 来自专栏腾讯云流计算 Oceanus

    Flink 实践教程:进阶7-基础

    在正式运行之前请检查: 类名是否有拼写错误 确定是否将相关的业务代码依赖打进 JAR 包中 基础 作业监控 流计算 Oceanus 提供强大的作业监控能力,我们可以通过【监控】项查看作业的各项指标 ,包括每秒数据流入条数、每秒数据流出条数、算计计算总耗时、目的端 Watermark 延时、作业重启次数,甚至更细化 CheckPoint、JobManager、TaskManager、Task 内的各项细化指标 作业失败:通过 from RUNNING to FAILED 关键字可以搜索作业崩溃的直接原因,异常栈中的 Caused by 后即为故障信息。 之后介绍了下作业启动之后的一些基础手段,包括实时监控和告警通知,方便用户及时了解作业的具体运行情况。最后介绍了在作业失败之后通过日志关键字定位问题的方法,具体可以查看 日志诊断指南[6]。

    3.1K31编辑于 2022-01-20
领券