搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏sktj
zookeeper 运维经验
去哪儿网也在很多场景依赖Zookeeper，所以我们也一直在摸索怎么更好的运维稳定的Zookeeper集群。在过去的几年我们也踩过一些坑，也因为Zookeeper导致了故障。现在将我们运维Zookeeper集群的一些经验分享，也欢迎大家提供更好的建议。那么在打算运维一套Zookeeper集群之前，我们先了解一些Zookeeper的基本原理。 6. 日志，jvm配置从官网直接下载的包如果直接启动运行是很糟糕的，这个包默认的配置日志是不会轮转的，而且是直接输出到终端。
61410编辑于 2022-05-20
来自专栏有文化的技术人
Zookeeper运维实践经验
例如，我们有1、2、3、4、5、6、7七个节点。经过以上配置,停掉节点2，3，4，5，6整个集群仍然是稳定的. 此时Group1和Group3是稳定状态. 需要考虑以机房/地域/业务等维度进行拆分 zk_approximate_data_size 说明：当快照体积过大时，ZK的节点重启后，会因为在initLimit的时间内同步不完整个快照而无法加入集群经验值尝试操作创建/删除/读取节点说明：在/zookeeper_monitor节点下，定期创建/删除节点，确保该功能可用建议：创建/zookeeper_monitor节点，不要使用业务节点，避免互相影响经验值在弹出的界面选择“远程进程”，输入“服务器IP:9991”(zookeeper服务器的IP和端口) 实践经验分Group 要确保Zookeeper整个集群可靠运行，就是要确保投票集群可靠。
1.8K30编辑于 2022-10-27
来自专栏万亿日志之道
日志系统Kafka运维的经验
背景介绍：从事日志系统的开发运维1年多了，Kafka集群一直是系统中最重要的集群之一。及时有效地处理Kafka问题，是保障系统运行稳定的重要工作。（二）Kafka监控 image.png 在运维kafka系统的过程中，我们根据业务的特点，为了能及时发现上述问题，对所有的集群进行了如下方面的监控： 1，生产者offset变化监控（partition
4.1K11发布于 2020-03-15
来自专栏蓝鲸智云
运维老司机：问题排查经验总结
（发布变更、监控处理、数值调整、数据提取等）的无人值守服务，而且还给运维人员提供了解决方案（工具），并随时调整，避免重复性的操作服务。其实做运维练就的是一种心态，足够淡定遇事而不乱，从容应对才是真。排查出问题并找到根本原因加以解决，个人认为是一件很成就感的事情。曾经有人问过我：“你是怎么想到问题出现在xxx的？八、总结记录，破案归档好记性不如烂笔头，然而在一片混乱问题分析当中，让运维心平气和地记录下问题与判断确实有点不切实际。运维专家或许是每个运维人追寻的梦想，他们敏锐的嗅觉似乎总能揪出系统故障的根本原因。这种快速反应、准确定位的能力源自多年来处理复杂系统难题的经验积累与个人知识储备，而且其成功很难被复制。文中涉及的方法、经验和思想不代表最佳实践。 --- 蓝鲸智云简介腾讯蓝鲸智云（简称蓝鲸）软件体系是一套基于PaaS的技术解决方案，致力于打造行业领先的一站式自动化运维平台。
1.8K60编辑于 2022-04-25
来自专栏腾讯技术工程官方号的专栏
运维老司机：问题排查经验总结
导语：运维可以说是世界上最紧张且强度最大的工作之一，每个杂乱无章的问题背后都需要我们的深入的抽丝剥茧。尤其是当你面对的问题直接与收入业务、海量服务运营挂钩时，可谓是肾上腺素瞬间飙升。排查问题犹如破案运维排查线上问题犹如警察破案一样，是一个不停分析线索，推理的过程，但在准备排查问题之前，我们应该明白三个认知：认知，几乎是人和人之间唯一的本质差别。卷宗记录，破案归档好记性不如烂笔头，然而在一片混乱问题分析当中，让运维心平气和地记录下问题与判断确实有点不切实际。 6、搭建开源的日志可视方案，协助我们去解决最后”一公里”的问题，常见如ELK、Log.io等。结语运维专家或许是每个运维人追寻的梦想，他们敏锐的嗅觉似乎总能揪出系统故障的根本原因。这种快速反应、准确定位的能力源自多年来处理复杂系统难题的经验积累与个人知识储备，而且其成功很难被复制。
3K30发布于 2017-08-16
来自专栏GitHub专栏
运维专家写给运维工程师的 6 条人生忠告
最近由于新公司需要招聘运维人员，所以接触了大量应聘者，基本都是85后的年轻人。在他们身上看到年轻的活力，也看到浮躁社会留下的烙印。作为一个奔5的老IT运维人员，真心希望他们少走自己的弯路，能够成就自己的一番事业，所以想对他们说一说心里话。运维人员与开发人员不同，由于基础架构部分的变动不是很大，因此运维人员是越老越值钱的。说出来你们可能都不相信，对于网络运维人员我通常问的一个问题是：TCP/IP建立连接的过程是什么？而对于Windows运维人员，我的问题是：Windows域的核心是什么？没有坚实的理论基础，无从指导实践，没有大量的实践积累，不能成为好的运维人员，更不用说在这个领域走得长远了。
2.6K20发布于 2020-06-18
运维经验｜Linux虚拟机如何挂载磁盘
新建一个分区（可以参考4、（1）帮助第一个命令）（2）第二步只是选择主分区（3）第三步默认第一分区（4）第四步开始大小，使用默认，直接回车（5）第五步结束大小，使用默认，直接回车（6） 6、实施挂载（1）创建挂载节点这个比较简单，就是创建一个文件夹。
1.9K10编辑于 2024-04-01
来自专栏侯哥的Python分享
MySQL运维6-Mycat垂直分库
, receiver_city varchar(6), receiver varchar(20)); create table tb_user(id int auto_increment primary (20)); create table tb_areas_city (id int auto_increment primary key, cityid varchar(6), city varchar (20), provinceid varchar(6)); create table tb_user_address (id int auto_increment primary key, user_id int, province_id varchar(6), city_id varchar(6), address varchar(20)); 　　　　说明1：根据分库策略，创建的这三个测试表，都是属于用户和地址相关的数据说明6：当全局表中的数据发生改变的时候，每个数据节点下的表，也都会发生数据改变。
48310编辑于 2023-12-18
来自专栏开发运维工程师
运维经验｜Linux虚拟机如何挂载磁盘
所以，我们需要额外的命令工具来做支撑，实验之前，先检查下机器已经挂载的磁盘，可使用lsblk命令来查询，如果不了解这个命令，可以参考博主以前的博文：Linux工具｜运维工具lsblk使用小妙招注意：Linux ，新建一个分区（可以参考4、（1）帮助第一个命令）（2）第二步只是选择主分区（3）第三步默认第一分区（4）第四步开始大小，使用默认，直接回车（5）第五步结束大小，使用默认，直接回车（6） 6、实施挂载（1）创建挂载节点这个比较简单，就是创建一个文件夹。
1.7K1210编辑于 2023-12-22
来自专栏力哥聊运维与云计算
聊聊运维（2）公开运维技术分享的一些经验
技术分享三条实战经验： ● 良好的逻辑性 ● 自己真实经验总结 ● 多练习首先，说明下，我不是技术分享高手，分享了次数比较多，有点心得；另外，听的分享多了，对好坏也有一些感受。还有，在此特别感谢下西山居的运维开发架构师，《Puppet实战》的作者刘宇，我的许多分享经验来自于宇哥，并且得到了宇哥多次的，一对一贴身的，手把手的指点。二如何做好技术分享 1.做好功课，了解听众运维分享通常是思路、方法、及在某些方面的技术实践，因为需要背景知识，不是所有人都能听懂，所以了解自己的听众非常重要，比如对于刚入行的朋友和资深的从业者，内容和深度就应该不一样多听听有实践性的知识，所以如果去分享，也多分享自己的实践经验，不要试图去搞高大上的东西，越是实际的东西，对大家越有收益。树形从根部开始，分模块介绍，比如私有云的运维，按照计算、存储、网络、管理等模块，逐个介绍。使用这个方案，建议画一个脑图。
1.2K20发布于 2019-06-28
来自专栏大数据
大规模Hadoop集群管理：运维经验与监控策略
四、故障自愈的防御体系在构建智能运维系统时，我们提炼出"故障三态模型"：瞬时故障（如网络抖动）、间歇故障（如磁盘坏道）、持久故障（如节点宕机）。运维启示录：集群的稳定性不在于处理故障的能力，而在于预见故障的智慧。在某金融风控系统中，这套体系将误报率从42%降至6%。八、智能运维的未来图景在某智慧城市的超大规模集群中，我们构建了AI运维中台：通过LSTM模型预测集群负载，结合强化学习进行参数调优推荐。系统每日处理2TB运维数据，自动生成《健康度诊断报告》。让技术经验流动起来 ▌▍▎▏ 你的每个互动都在为技术社区蓄能 ▏▎▍▌ ✅ 点赞 → 让优质经验被更多人看见收藏 → 构建你的专属知识库转发 → 与技术伙伴共享避坑指南点赞 ➕ 收藏
47521编辑于 2025-09-12
来自专栏运维之美
「运维之美」技术周刊 ( 第 6 期 )
这里将分享一些最新运维相关技术和业界资讯的精彩内容，每周五发布。欢迎投稿或推荐你自己的项目，投稿邮箱: editor@hi-linux.com 。 6、Let’s Encrypt 推出中文版旨在让每个网站都能使用 HTTPS 加密的非赢利组织 Let's Encrypt 发布了简体中文版，方便中文用户使用 Let's Encrypt 签发的证书 6、stegify 一款神奇的命令行工具，能将任意文件隐藏到图片里面。项目地址：http://t.cn/ExM6aQF ? 8、gifify gifify 是一款将视频转换成 GIF 图片的工具，支持任何格式的视频以及选取某个时间段进行转换。并且需要额外维护一套中间件，运维成本过高。本文将介绍一个类似 MHA 的 master_ip_failover 脚本的方法来实现 VIP 切换。
87650发布于 2019-08-13
来自专栏悦专栏
8 年 Redis 运维经验，我踩了哪些坑
嘉宾介绍朱文潇，大型互联网公司 8 年 Redis 运维实战经验，多次以核心身份主导 Redis 框架方案设计及落地实施，对 Redis 服务有深刻理解，对多种 Redis 实现方案都有独到的见解。 3）Codis 集群高可用方案：一款分布式缓存高可用集群产品，提供了配套的客户端，提供了动态数据迁移，内置高可用方案，产品设计解决了运维大部分痛点；同样，如果想阅读更多关于 Codis 的内容，可以点击我之前出的一篇文章从 Redis 2.X 到 Redis 3.X 以上版本需要投入很多测试，整体的运维技术也有很大的变化，需要不断的研究、不断的学习，这也是对运维人员的考验。 4 所维护的集群最大 QPS 是多少？ 6 推荐一些 Redis 的学习资料。 1）Redis 源代码并不长，有能力的一定要好好欣赏一下作者的代码艺术； 2）付磊、张益军两位老师编写的《Redis 开发与运维》，有原理解读，有实战经验，值得一看； 3）Redis 社区活跃度比较高，
45220编辑于 2022-04-25
来自专栏数据和云
运维经验：回滚段异常的特殊救急方法
冷菠冷菠，资深DBA，著有《Oracle高性能自动化运维》，有近10年的数据库运维、团队管理以及培训经验。擅长数据库备份恢复、数据库性能诊断优化以及数据库自动化运维等。 6、使用以下命令，关闭数据库： shutdown immediate； 7、修改init.ora初始化参数文件，重新配置新的回滚段表空间，如下所示： 8、正常启动数据库，并重建spfile： startup
2.2K90发布于 2018-03-08
春节前云平台运维深度巡检-实操经验
春节对咱们运维人来说，从来不是单纯的假期，而是一场“保稳定”的硬仗。下面结合我这些年的一线实操经验，拆解各核心组件的巡检要点和常用命令，都是实打实能用得上的干货。
26010编辑于 2026-02-03
来自专栏FreeBuf
经验分享 | 如何做好基础安全设备运维
堡垒机有时候也叫运维审计系统，可以配合 Windows 域或其他认证系统，对运维人员的操作进行审计。网络的访问控制做的好的话，个人认为堡垒机是安全运维里面最有用的设备之一。从工作职责说明上写清楚安全运维人员的职责和绩效评估方法，因为安全设备的运维都属于日常性的工作，可以做工作计划，按照计划推动安全设备的日常运维工作。结合运维、开发部门流程将与安全流程整合到一起。如果运维部门有类似的系统，放在一起做。设备少的情况下也可以手工记录。定期对业务网络环境做漏洞扫描，跟业务部门、开发部门、运维部门确认漏洞修复状态，不能修复的说明情况，采取补偿的方式对有漏洞系统进行防护。
2.4K90发布于 2018-02-24
来自专栏嘉为动态
【经验分享】银行应用运维平台设计与建设建议
文章目录如下，是笔者过去5年作为乙方在多个银行设计和落地应用运维自动化的经验分享，共11000字，阅读时长大约10分钟。本文主要聚焦于银行IT运维组织中的应用运维，分析应用运维如何提升自己的运维水平和方式以适应业务转型、信息系统架构异构化的发展要求。运维质量及安全级别要求高：在运维工作复杂度和负担不断增加的情况下，运维如何保持既有运维质量、保障和提升系统可用率，成为应用运维的难题。运维工作如此繁重，运维人员在横向扩展自己运维技能的同时，还有时间往运维开发、大数据或AI等纵向技术领域转型吗？应用运维，指的是对应用系统的运维，既包含对应用程序的发布、变更等运维工作，也包含对应用系统整体的健康巡检、监控等运维工作。
2.1K31发布于 2020-05-26
来自专栏IT大咖说
运维经验沉淀，面向云原生的一站式日志采集配置及运维平台
◆ 一、开源项目简介滴滴LogiAM来源于滴滴多年来大量的运维实践经验。经历过多方考验，对于大规模Agent日志采集治理管控及巡检诊断已经沉淀出一套完善的解决方案。高效的问题诊断、定位能力：具有卓越的指标诊断体系，将Agent、日志采集任务运行时状态全景数字化呈现，实时监控Agent及采集任务健康度，提供故障诊断功能并开具相应诊断报告，可高效快捷的实现问题定位强大的运维能力：基于滴滴多年各核心业务、海量Agent与采集任务的运维经验，对于超大规模Agent与采集任务的治理管控及巡检诊断已经沉淀出一套完善的解决方案。实时查看运维任务，便于运维人员把控运维任务进度及状态 ◆ 五、技术选型 ◆ 滴滴Logi-Agent架构图 ◆ Agent Manager 本地开发环境搭建 ◆ 1 环境准备 ◆ 1.1 环境依赖致力于快速高效开发 Java 工程师相见恨晚的神兵利器和使用技巧 MySQL 故障诊断：MySQL 占用 CPU 过高问题定位及优化高可用架构之 Sentinel 的降级原理详解 .NET 6
1.7K20编辑于 2022-06-27
来自专栏devops_k8s
做运维的感悟(做运维需要考虑事,运维组织结构,运维学习地图....)
确实，【运维】可能是分水岭最明显的职位之一：有的人毕业6年，月薪从3K涨到到50K；有的人工作4年，依然做着重启服务器、检查机房的机械工作，这都是知乎上能看到的真实事例。【职位要求】计算机相关专业，本科及以上学历，至少2年以上的大规模系统运维经验，2年以上运维开发经验，有deveops开发经验或有中大型互联网公司运维自动化经验者优先；具备openstack 或docker集群运维经验；掌握shell/python/perl/php其中一种脚本语言，有Python实际项目经验，熟练掌握Django、Tornado等任一Web开发框架者优先； ; 【岗位要求】 1.本科及以上学历，6年以上大型业务应用系统的架构设计和落地的实际能力，熟悉分布式、缓存、消息等机制，能对分布式常用技术进行合理应用，解决实际架构问题; 2.海量数据处理和架构能力及经验高级运维，一般5-10年经验，薪资15-35k左右终点技术是没有终点的，当然可以有你自己的终点。当工作10年，技术已经很厉害了，就需要靠拢一些别的东西了。
8K1011发布于 2020-12-23
来自专栏释然IT杂谈
线上Linux服务器运维安全策略经验分享
因此做为运维人员，就必须了解一些安全运维准则，同时，要保护自己所负责的业务，首先要站在攻击者的角度思考问题，修补任何潜在的威胁和漏洞。设置一个相对复杂的密码，对系统安全能起到一定的防护作用，但是也面临一些其他问题，例如密码暴力破解、密码泄露、密码丢失等，同时过于复杂的密码对运维工作也会造成一定的负担。文件系统安全 1、锁定系统重要文件系统运维人员有时候可能会遇到通过root用户都不能修改或者删除某个文件的情况，产生这种情况的大部分原因可能是这个文件被锁定了。 2、文件权限检查和修改不正确的权限设置直接威胁着系统的安全，因此运维人员应该能及时发现这些不正确的权限设置，并立刻修正，防患于未然。下面列举几种查找系统不安全权限的方法。作为一个安全运维人员，要把握的原则是：尽量做好系统安全防护，修复所有已知的危险行为，同时，在系统遭受攻击后能够迅速有效地处理攻击行为，最大限度地降低攻击对系统产生的影响。
3K21编辑于 2022-10-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

zookeeper 运维经验

Zookeeper运维实践经验

日志系统Kafka运维的经验

运维老司机：问题排查经验总结

运维老司机：问题排查经验总结

运维专家写给运维工程师的 6 条人生忠告

运维经验｜Linux虚拟机如何挂载磁盘

MySQL运维6-Mycat垂直分库

运维经验｜Linux虚拟机如何挂载磁盘

聊聊运维（2）公开运维技术分享的一些经验

大规模Hadoop集群管理：运维经验与监控策略

「运维之美」技术周刊 ( 第 6 期 )

8 年 Redis 运维经验，我踩了哪些坑

运维经验：回滚段异常的特殊救急方法

春节前云平台运维深度巡检-实操经验

经验分享 | 如何做好基础安全设备运维

【经验分享】银行应用运维平台设计与建设建议

运维经验沉淀，面向云原生的一站式日志采集配置及运维平台

做运维的感悟(做运维需要考虑事,运维组织结构,运维学习地图....)

线上Linux服务器运维安全策略经验分享

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐