搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏sktj
zookeeper 运维经验
去哪儿网也在很多场景依赖Zookeeper，所以我们也一直在摸索怎么更好的运维稳定的Zookeeper集群。在过去的几年我们也踩过一些坑，也因为Zookeeper导致了故障。现在将我们运维Zookeeper集群的一些经验分享，也欢迎大家提供更好的建议。那么在打算运维一套Zookeeper集群之前，我们先了解一些Zookeeper的基本原理。 9. 监控我们对Zookeeper做了这样一些监控: a. 是否可写。就是一个定时任务定时的去创建节点，删节点等操作。
61410编辑于 2022-05-20
来自专栏有文化的技术人
Zookeeper运维实践经验
常态下该值应该持续为0，不应该有未处理请求 zk_pending_syncs 说明：常态下该值应该持续为0，不应该有未同步的数据 zk_znode_count 说明：节点数越多，集群的压力越大，性能会随之急剧下降经验值需要考虑以机房/地域/业务等维度进行拆分 zk_approximate_data_size 说明：当快照体积过大时，ZK的节点重启后，会因为在initLimit的时间内同步不完整个快照而无法加入集群经验值尝试操作创建/删除/读取节点说明：在/zookeeper_monitor节点下，定期创建/删除节点，确保该功能可用建议：创建/zookeeper_monitor节点，不要使用业务节点，避免互相影响经验值在弹出的界面选择“远程进程”，输入“服务器IP:9991”(zookeeper服务器的IP和端口) 实践经验分Group 要确保Zookeeper整个集群可靠运行，就是要确保投票集群可靠。
1.8K30编辑于 2022-10-27
来自专栏万亿日志之道
日志系统Kafka运维的经验
背景介绍：从事日志系统的开发运维1年多了，Kafka集群一直是系统中最重要的集群之一。及时有效地处理Kafka问题，是保障系统运行稳定的重要工作。故障描述：硬盘分区/data9 只读, 出错信息:Read-only file system 系统日志数量巨大，持续的数据写入操作，导致磁盘很容易故障，出现故障时，需要尽快停止服务，减少对集群的影响。（二）Kafka监控 image.png 在运维kafka系统的过程中，我们根据业务的特点，为了能及时发现上述问题，对所有的集群进行了如下方面的监控： 1，生产者offset变化监控（partition
4.1K11发布于 2020-03-15
来自专栏DBA随笔
MongoDB运维与开发(9)---readConcern
// MongoDB运维与开发(9)---readConcern // readConcern产生背景： MongoDB的写请求写入Primary， secondary从Primary自动获取并且应用
1.8K20发布于 2020-12-14
运维那些事儿（9）：运维知识库，串联全流程的运维效率神器
但后台不少小伙伴反馈：“故障排查时翻记录半天找不到方案”“新人上手慢，老员工经验没法复用”“流程太多记混操作步骤”—— 这些痛点的核心，就是缺乏一个能沉淀经验、快速检索、规范操作的 “运维知识库”。运维知识库不是简单的 “文档存储库”，而是能解决 “经验复用难、故障排查慢、新人上手缓” 的核心支撑，更是串联前八期所有工具和流程的 “纽带”。本期我们将详细拆解运维知识库的功能、价值和实用场景，重点介绍专属运维知识库的核心算法、实现目标和使用流程，让它与现有运维体系无缝联动，实现 “一站式运维支持”。沉淀运维经验，降低新人上手成本：老员工的口头经验转化为可复用的标准化文档，新人入职后对照知识库就能学习监控操作、U 位管理、故障排查等核心工作，快速独立上手，减轻老员工带教压力；3. 你在日常工作中，是否常被故障排查慢、经验复用难、新人带教累等问题困扰？结合今天聊的知识库功能，你最想用它解决什么运维痛点？还有什么关于知识库使用、配置的疑问？欢迎在评论区留言交流，我们会一一解答！
17721编辑于 2026-03-18
来自专栏蓝鲸智云
运维老司机：问题排查经验总结
（发布变更、监控处理、数值调整、数据提取等）的无人值守服务，而且还给运维人员提供了解决方案（工具），并随时调整，避免重复性的操作服务。 [nodmsl9j5x.png] 从入行到现在，遇到过各式各样，千奇百怪的问题，然而每个业务形态和系统均不一样，我们往往能搜索到很多某一个或一类问题解决办法，但个人觉得认知方法、经验难复制，所以抽（套）八、总结记录，破案归档好记性不如烂笔头，然而在一片混乱问题分析当中，让运维心平气和地记录下问题与判断确实有点不切实际。运维专家或许是每个运维人追寻的梦想，他们敏锐的嗅觉似乎总能揪出系统故障的根本原因。这种快速反应、准确定位的能力源自多年来处理复杂系统难题的经验积累与个人知识储备，而且其成功很难被复制。文中涉及的方法、经验和思想不代表最佳实践。 --- 蓝鲸智云简介腾讯蓝鲸智云（简称蓝鲸）软件体系是一套基于PaaS的技术解决方案，致力于打造行业领先的一站式自动化运维平台。
1.8K60编辑于 2022-04-25
来自专栏腾讯技术工程官方号的专栏
运维老司机：问题排查经验总结
导语：运维可以说是世界上最紧张且强度最大的工作之一，每个杂乱无章的问题背后都需要我们的深入的抽丝剥茧。尤其是当你面对的问题直接与收入业务、海量服务运营挂钩时，可谓是肾上腺素瞬间飙升。其实做运维练就的是一种心态，足够淡定遇事不乱，从容应对才是真。从入行到现在，遇到过各式各样千奇百怪的问题，每个业务形态和系统均不一样，排查出问题并找到根本原因加以解决，其实是一件很成就感的事情。排查问题犹如破案运维排查线上问题犹如警察破案一样，是一个不停分析线索，推理的过程，但在准备排查问题之前，我们应该明白三个认知：认知，几乎是人和人之间唯一的本质差别。卷宗记录，破案归档好记性不如烂笔头，然而在一片混乱问题分析当中，让运维心平气和地记录下问题与判断确实有点不切实际。结语运维专家或许是每个运维人追寻的梦想，他们敏锐的嗅觉似乎总能揪出系统故障的根本原因。这种快速反应、准确定位的能力源自多年来处理复杂系统难题的经验积累与个人知识储备，而且其成功很难被复制。
3K30发布于 2017-08-16
来自专栏王先森
Linux运维bind9-DNS概述入门
183.131.200.61 1.81.5.178 1.81.5.179 183.131.200.68 183.131.200.69 183.131.200.72 183.131.200.74 学习部署bind9 k8s-dns.host.com 3.10.0-957.el7.x86_64 #1 SMP Thu Nov 8 23:39:32 UTC 2018 x86_64 x86_64 x86_64 GNU/Linux 安装bind9 使用centos6自带的yum源即可，同时确保机器可以解析外网域名，并能连接公网 yum install -y bind-utils bind bind-devel bind-chroot bind9主配置文件加载自定义区域文件 include "/etc/named.root.key"; 检查配置文件 # named-checkconf -z /etc/named.conf 没有报错就属于正常启动bind9服务
2.4K20编辑于 2023-04-24
运维经验｜Linux虚拟机如何挂载磁盘
9、迁移日志到挂载盘上面的挂载已然成功，那么回到最初的问题，可以将日志迁移到挂载盘中，是业务正常运行。
1.9K10编辑于 2024-04-01
来自专栏开发运维工程师
运维经验｜Linux虚拟机如何挂载磁盘
所以，我们需要额外的命令工具来做支撑，实验之前，先检查下机器已经挂载的磁盘，可使用lsblk命令来查询，如果不了解这个命令，可以参考博主以前的博文：Linux工具｜运维工具lsblk使用小妙招注意：Linux 9、迁移日志到挂载盘上面的挂载已然成功，那么回到最初的问题，可以将日志迁移到挂载盘中，是业务正常运行。
1.7K1210编辑于 2023-12-22
来自专栏力哥聊运维与云计算
聊聊运维（2）公开运维技术分享的一些经验
技术分享三条实战经验： ● 良好的逻辑性 ● 自己真实经验总结 ● 多练习首先，说明下，我不是技术分享高手，分享了次数比较多，有点心得；另外，听的分享多了，对好坏也有一些感受。还有，在此特别感谢下西山居的运维开发架构师，《Puppet实战》的作者刘宇，我的许多分享经验来自于宇哥，并且得到了宇哥多次的，一对一贴身的，手把手的指点。二如何做好技术分享 1.做好功课，了解听众运维分享通常是思路、方法、及在某些方面的技术实践，因为需要背景知识，不是所有人都能听懂，所以了解自己的听众非常重要，比如对于刚入行的朋友和资深的从业者，内容和深度就应该不一样多听听有实践性的知识，所以如果去分享，也多分享自己的实践经验，不要试图去搞高大上的东西，越是实际的东西，对大家越有收益。树形从根部开始，分模块介绍，比如私有云的运维，按照计算、存储、网络、管理等模块，逐个介绍。使用这个方案，建议画一个脑图。
1.2K20发布于 2019-06-28
来自专栏人工智能机器学习
企业运维安全管理实践的9大领域
运维安全作为企业安全保障的基石，特别是互联网企业，它不同于Web安全、移动安全、或者业务安全，因为运维安全位于最底层，或涉及到服务器、网络设备。而在企业日常运营中，运维安全事件的出现通常预示着这个企业的安全规范、流程有问题，这种情况下就会不止一台机器有同样的漏洞，会是一大片，甚至波及整个公司的核心业务。分享6个经典的与运维安全相关的漏洞：一次成功的漫游京东内部网络的过程（由一个开发人员失误导致）首先研发人员将公司的代码发布到第三方代码托管平台，例如GitHub。邮箱没有对通讯录遍历功能进行限制，导致遍历通讯录对所有的用户进行一次弱口令的洗劫（参考图一的弱口令），是用Burpsuite破解（简称：BP）得到一个运维或者运维组员工的邮箱，在邮件里面找到了明文密码以上内容参考：运维安全管理必修课安全牛课堂来自：
1.3K00发布于 2019-07-22
来自专栏阿贤Linux
Linux运维工程师面试题（9）
Linux运维工程师面试题（9）祝各位小伙伴们早日找到自己心仪的工作。持续学习才不会被淘汰。地球不爆炸，我们不放假。机会总是留给有有准备的人的。加油，打工人！ 9 有状态和无状态服务的区别http请求无状态，多次请求之间没有依赖关系有状态就是多次访问之间有关联关系，需要记录多次之间的访问关系10 k8s 中 service 是做什么的？阿里云、腾讯云、华为云、今日头条、百家号、GitHub、个人博客公众号：阿贤Linux个人博客：blog.waluna.tophttps://blog.waluna.top/---原文链接: Linux运维工程师面试题（9）.
94820编辑于 2023-09-08
来自专栏大数据
大规模Hadoop集群管理：运维经验与监控策略
四、故障自愈的防御体系在构建智能运维系统时，我们提炼出"故障三态模型"：瞬时故障（如网络抖动）、间歇故障（如磁盘坏道）、持久故障（如节点宕机）。运维启示录：集群的稳定性不在于处理故障的能力，而在于预见故障的智慧。八、智能运维的未来图景在某智慧城市的超大规模集群中，我们构建了AI运维中台：通过LSTM模型预测集群负载，结合强化学习进行参数调优推荐。系统每日处理2TB运维数据，自动生成《健康度诊断报告》。通过Chaos Mesh实现云原生故障演练，使集群容灾能力提升3个9。某次演练发现Standby NameNode的fsimage加载漏洞，避免了一次潜在的生产事故。让技术经验流动起来 ▌▍▎▏ 你的每个互动都在为技术社区蓄能 ▏▎▍▌ ✅ 点赞 → 让优质经验被更多人看见收藏 → 构建你的专属知识库转发 → 与技术伙伴共享避坑指南点赞 ➕ 收藏
47521编辑于 2025-09-12
来自专栏悦专栏
8 年 Redis 运维经验，我踩了哪些坑
嘉宾介绍朱文潇，大型互联网公司 8 年 Redis 运维实战经验，多次以核心身份主导 Redis 框架方案设计及落地实施，对 Redis 服务有深刻理解，对多种 Redis 实现方案都有独到的见解。 3）Codis 集群高可用方案：一款分布式缓存高可用集群产品，提供了配套的客户端，提供了动态数据迁移，内置高可用方案，产品设计解决了运维大部分痛点；同样，如果想阅读更多关于 Codis 的内容，可以点击我之前出的一篇文章从 Redis 2.X 到 Redis 3.X 以上版本需要投入很多测试，整体的运维技术也有很大的变化，需要不断的研究、不断的学习，这也是对运维人员的考验。 4 所维护的集群最大 QPS 是多少？ 1）Redis 源代码并不长，有能力的一定要好好欣赏一下作者的代码艺术； 2）付磊、张益军两位老师编写的《Redis 开发与运维》，有原理解读，有实战经验，值得一看； 3）Redis 社区活跃度比较高，相关阅读《用实战经验浅谈 Redis 核心技术》第01期：你好！
45220编辑于 2022-04-25
来自专栏数据和云
运维经验：回滚段异常的特殊救急方法
冷菠冷菠，资深DBA，著有《Oracle高性能自动化运维》，有近10年的数据库运维、团队管理以及培训经验。擅长数据库备份恢复、数据库性能诊断优化以及数据库自动化运维等。
2.2K90发布于 2018-03-08
春节前云平台运维深度巡检-实操经验
春节对咱们运维人来说，从来不是单纯的假期，而是一场“保稳定”的硬仗。下面结合我这些年的一线实操经验，拆解各核心组件的巡检要点和常用命令，都是实打实能用得上的干货。
26010编辑于 2026-02-03
来自专栏FreeBuf
经验分享 | 如何做好基础安全设备运维
堡垒机有时候也叫运维审计系统，可以配合 Windows 域或其他认证系统，对运维人员的操作进行审计。网络的访问控制做的好的话，个人认为堡垒机是安全运维里面最有用的设备之一。从工作职责说明上写清楚安全运维人员的职责和绩效评估方法，因为安全设备的运维都属于日常性的工作，可以做工作计划，按照计划推动安全设备的日常运维工作。结合运维、开发部门流程将与安全流程整合到一起。如果运维部门有类似的系统，放在一起做。设备少的情况下也可以手工记录。定期对业务网络环境做漏洞扫描，跟业务部门、开发部门、运维部门确认漏洞修复状态，不能修复的说明情况，采取补偿的方式对有漏洞系统进行防护。
2.4K90发布于 2018-02-24
来自专栏嘉为动态
【经验分享】银行应用运维平台设计与建设建议
文章目录如下，是笔者过去5年作为乙方在多个银行设计和落地应用运维自动化的经验分享，共11000字，阅读时长大约10分钟。本文主要聚焦于银行IT运维组织中的应用运维，分析应用运维如何提升自己的运维水平和方式以适应业务转型、信息系统架构异构化的发展要求。运维质量及安全级别要求高：在运维工作复杂度和负担不断增加的情况下，运维如何保持既有运维质量、保障和提升系统可用率，成为应用运维的难题。运维工作如此繁重，运维人员在横向扩展自己运维技能的同时，还有时间往运维开发、大数据或AI等纵向技术领域转型吗？应用运维，指的是对应用系统的运维，既包含对应用程序的发布、变更等运维工作，也包含对应用系统整体的健康巡检、监控等运维工作。
2.1K31发布于 2020-05-26
来自专栏IT大咖说
运维经验沉淀，面向云原生的一站式日志采集配置及运维平台
◆ 一、开源项目简介滴滴LogiAM来源于滴滴多年来大量的运维实践经验。经历过多方考验，对于大规模Agent日志采集治理管控及巡检诊断已经沉淀出一套完善的解决方案。运行时指标对Agent是否运行健康进行检查日志采集任务健康度巡检：基于日志采集任务在各Agent运行时指标对日志采集任务是否运行健康进行检查 ◆ 核心优势稳定可靠的采集引擎：基于滴滴内部多年来沉淀的经验高效的问题诊断、定位能力：具有卓越的指标诊断体系，将Agent、日志采集任务运行时状态全景数字化呈现，实时监控Agent及采集任务健康度，提供故障诊断功能并开具相应诊断报告，可高效快捷的实现问题定位强大的运维能力：基于滴滴多年各核心业务、海量Agent与采集任务的运维经验，对于超大规模Agent与采集任务的治理管控及巡检诊断已经沉淀出一套完善的解决方案。实时查看运维任务，便于运维人员把控运维任务进度及状态 ◆ 五、技术选型 ◆ 滴滴Logi-Agent架构图 ◆ Agent Manager 本地开发环境搭建 ◆ 1 环境准备 ◆ 1.1 环境依赖
1.7K20编辑于 2022-06-27

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

zookeeper 运维经验

Zookeeper运维实践经验

日志系统Kafka运维的经验

MongoDB运维与开发(9)---readConcern

运维那些事儿（9）：运维知识库，串联全流程的运维效率神器

运维老司机：问题排查经验总结

运维老司机：问题排查经验总结

Linux运维bind9-DNS概述入门

运维经验｜Linux虚拟机如何挂载磁盘

运维经验｜Linux虚拟机如何挂载磁盘

聊聊运维（2）公开运维技术分享的一些经验

企业运维安全管理实践的9大领域

Linux运维工程师面试题（9）

大规模Hadoop集群管理：运维经验与监控策略

8 年 Redis 运维经验，我踩了哪些坑

运维经验：回滚段异常的特殊救急方法

春节前云平台运维深度巡检-实操经验

经验分享 | 如何做好基础安全设备运维

【经验分享】银行应用运维平台设计与建设建议

运维经验沉淀，面向云原生的一站式日志采集配置及运维平台

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐