去哪儿网也在很多场景依赖Zookeeper,所以我们也一直在摸索怎么更好的运维稳定的Zookeeper集群。在过去的几年我们也踩过一些坑,也因为Zookeeper导致了故障。 现在将我们运维Zookeeper集群的一些经验分享,也欢迎大家提供更好的建议。 那么在打算运维一套Zookeeper集群之前,我们先了解一些Zookeeper的基本原理。 8. 日志位置 Zookeeper主要产生三种IO: txlog(每个写操作,包括新Session都会记录一条log),Snapshot以及运行的应用日志。一般建议将这三个IO分散到三个不同的盘上。
嘉宾介绍 朱文潇 ,大型互联网公司 8 年 Redis 运维实战经验,多次以核心身份主导 Redis 框架方案设计及落地实施,对 Redis 服务有深刻理解,对多种 Redis 实现方案都有独到的见解。 3 在工作这 8 年,生产环境使用过哪些 Redis 架构?都有哪些优缺点?踩到过哪些坑? 3)Codis 集群高可用方案:一款分布式缓存高可用集群产品,提供了配套的客户端,提供了动态数据迁移,内置高可用方案,产品设计解决了运维大部分痛点;同样,如果想阅读更多关于 Codis 的内容,可以点击我之前出的一篇文章 从 Redis 2.X 到 Redis 3.X 以上版本需要投入很多测试,整体的运维技术也有很大的变化,需要不断的研究、不断的学习,这也是对运维人员的考验。 4 所维护的集群最大 QPS 是多少? 1)Redis 源代码并不长,有能力的一定要好好欣赏一下作者的代码艺术; 2)付磊、张益军两位老师编写的《Redis 开发与运维》,有原理解读,有实战经验,值得一看; 3)Redis 社区活跃度比较高,
常态下该值应该持续为0,不应该有未处理请求 zk_pending_syncs 说明:常态下该值应该持续为0,不应该有未同步的数据 zk_znode_count 说明:节点数越多,集群的压力越大,性能会随之急剧下降 经验值 需要考虑以机房/地域/业务等维度进行拆分 zk_approximate_data_size 说明:当快照体积过大时,ZK的节点重启后,会因为在initLimit的时间内同步不完整个快照而无法加入集群 经验值 尝试操作 创建/删除/读取节点 说明:在/zookeeper_monitor节点下,定期创建/删除节点,确保该功能可用 建议:创建/zookeeper_monitor节点,不要使用业务节点,避免互相影响 经验值 在弹出的界面选择“远程进程”,输入“服务器IP:9991”(zookeeper服务器的IP和端口) 实践经验 分Group 要确保Zookeeper整个集群可靠运行,就是要确保投票集群可靠。
背景介绍: 从事日志系统的开发运维1年多了,Kafka集群一直是系统中最重要的集群之一。及时有效地处理Kafka问题,是保障系统运行稳定的重要工作。 (二)Kafka监控 image.png 在运维kafka系统的过程中,我们根据业务的特点,为了能及时发现上述问题,对所有的集群进行了如下方面的监控: 1,生产者offset变化监控(partition
(发布变更、监控处理、数值调整、数据提取等)的无人值守服务,而且还给运维人员提供了解决方案(工具),并随时调整,避免重复性的操作服务。 其实做运维练就的是一种心态,足够淡定遇事而不乱,从容应对才是真。 排查出问题并找到根本原因加以解决,个人认为是一件很成就感的事情。曾经有人问过我:“你是怎么想到问题出现在xxx的? 八、总结记录,破案归档 好记性不如烂笔头,然而在一片混乱问题分析当中,让运维心平气和地记录下问题与判断确实有点不切实际。 运维专家或许是每个运维人追寻的梦想,他们敏锐的嗅觉似乎总能揪出系统故障的根本原因。这种快速反应、准确定位的能力源自多年来处理复杂系统难题的经验积累与个人知识储备,而且其成功很难被复制。 文中涉及的方法、经验和思想不代表最佳实践。 --- 蓝鲸智云简介 腾讯蓝鲸智云(简称蓝鲸)软件体系是一套基于PaaS的技术解决方案,致力于打造行业领先的一站式自动化运维平台。
导语:运维可以说是世界上最紧张且强度最大的工作之一,每个杂乱无章的问题背后都需要我们的深入的抽丝剥茧。尤其是当你面对的问题直接与收入业务、海量服务运营挂钩时,可谓是肾上腺素瞬间飙升。 其实做运维练就的是一种心态,足够淡定遇事不乱,从容应对才是真。 从入行到现在,遇到过各式各样千奇百怪的问题,每个业务形态和系统均不一样,排查出问题并找到根本原因加以解决,其实是一件很成就感的事情。 排查问题犹如破案 运维排查线上问题犹如警察破案一样,是一个不停分析线索,推理的过程,但在准备排查问题之前,我们应该明白三个认知:认知,几乎是人和人之间唯一的本质差别。 卷宗记录,破案归档 好记性不如烂笔头,然而在一片混乱问题分析当中,让运维心平气和地记录下问题与判断确实有点不切实际。 结语 运维专家或许是每个运维人追寻的梦想,他们敏锐的嗅觉似乎总能揪出系统故障的根本原因。这种快速反应、准确定位的能力源自多年来处理复杂系统难题的经验积累与个人知识储备,而且其成功很难被复制。
sda1 * 2048 2099199 2097152 1G 83 Linux /dev/sda2 2099200 104857599 102758400 49G 8e 8、 设置开机启动挂载 将挂载信息按指定格式写入到 /etc/fstab文件中(这样主机重启后,挂载才能永久有效),可以将下面的信息追加到文件中。
点击立即体验WeOps众所周知容器(docker)是一艘航行在IT大海里的“轮船”为了驶向彼岸,需要一个“船舵”(K8S)那如何更好更快地前行呢? 你需要“We Operations”统一管理,让船上的“货物”井井有条统一监控,“货物”故障提前感知,更快解决问题下面正式介绍多才多艺的:嘉为蓝鲸一体化运维平台WeOps! 成熟稳定腾讯每年3亿重金打造+超10年持续迭代+支撑30w节点运维实践,构建成熟稳定的运维平台。轻量部署轻量化,支持单机部署,20+年专家经验沉淀+10万用户的市场验证,内置场景,一键启用。
所以,我们需要额外的命令工具来做支撑,实验之前,先检查下机器已经挂载的磁盘,可使用lsblk命令来查询,如果不了解这个命令,可以参考博主以前的博文:Linux工具|运维工具lsblk使用小妙招 注意:Linux sda1 * 2048 2099199 2097152 1G 83 Linux /dev/sda2 2099200 104857599 102758400 49G 8e 8、 设置开机启动挂载 将挂载信息按指定格式写入到 /etc/fstab文件中(这样主机重启后,挂载才能永久有效),可以将下面的信息追加到文件中。
什么是k8s? k8s是kubernetes的简称,即字母“k”到最后一位相隔8位字母。名字来源于希腊语,意思是“舵手”或“领航员”。 的数据中心里运行着10多一个容器,而且google十多年前就开始使用容器技术,最初,google开发了一个叫borg的系统(现在命名为Omega)来调度如此庞大数量的容器好工作负载,在积累了这么多年的经验后 设置远程登录root账户 vim /etc/ssh/sshd_config 增加一行 PermitRootLogin yes 重启服务 service ssh restart 关闭交换空间(k8s 192.168.17.129:6443 --token abcdef.0123456789abcdef \ --discovery-token-ca-cert-hash sha256:6a051b8d0b670f357fe0d8e6a282b062b6f090d1b90968d6c3f3cea8dd33d104
云平台的研发和运维人员可以通过软件源管理系统快速搭建和维护 YUM、APT 等软件源,以便满足研发和运维人员在环境搭建、开发、构建、测试、运行等环节的组件和工具依赖需求,提升整体研发和运维效能。 历史记录 用于运维人员查看指定软件源的同步操作事件,便于判断软件源的整体工作状态。 操作记录 用于运维人员或者审计人员来查看指定软件源的操作记录(新建、修改和删除)。 这也是我们运维专题的最后一期了,小编这里将系列专题做个汇总,方便大家系统的回顾云运维,如:统一配置信息管理的CMDB、监控告警自动化的云哨系统、混沌工程故障演练平台等等: 第一期 运维专题第一期:数据中枢 第二期 运维专题第二期:警戒哨兵 第三期 运维专题第三期:诊断专家 第四期 运维平台第四期:数据掘金者 第五期 运维平台第五期:业务永续 第六期 运维平台第六期:混沌工程,助力系统稳如磐石 第七期 运维专题第七期:云上保险柜 第八期 运维专题第八期:软件源 古人云:学无先后,达者为师,在写这一系列推文的时候,所有的产品经理就好似上学时的老师一样,教授给小编相关的知识以及经验,让小编不自觉的就想起了以前上学时恩师的谆谆教诲
k8s常用命令 node 查看服务器节点 kubectl get nodes 查看服务器节点详情 kubectl get nodes -o wide 节点打标签 kubectl label nodes pods --all-namespaces #查看具体pods,记得后边跟namespace名字哦 kubectl get pods kubernetes-dashboard-76479d66bb-nj8wr --namespace=kube- system 查看pods具体信息 kubectl get pods -o wide kubernetes-dashboard-76479d66bb-nj8wr - kubectl api-versions # API kubectl get events # 查看事件 kubectl get nodes //获取全部节点 kubectl delete node k8s2 # 标记 my-node 不可调度 kubectl drain k8s-node # 清空 my-node 以待维护 kubectl uncordon k8s-node # 标记 my-node 可调度
技术分享三条实战经验: ● 良好的逻辑性 ● 自己真实经验总结 ● 多练习 首先,说明下,我不是技术分享高手,分享了次数比较多,有点心得;另外,听的分享多了,对好坏也有一些感受。 还有,在此特别感谢下西山居的运维开发架构师,《Puppet实战》的作者刘宇,我的许多分享经验来自于宇哥,并且得到了宇哥多次的,一对一贴身的,手把手的指点。 二 如何做好技术分享 1.做好功课,了解听众 运维分享通常是思路、方法、及在某些方面的技术实践,因为需要背景知识,不是所有人都能听懂,所以了解自己的听众非常重要,比如对于刚入行的朋友和资深的从业者,内容和深度就应该不一样 多听听有实践性的知识,所以如果去分享,也多分享自己的实践经验,不要试图去搞高大上的东西,越是实际的东西,对大家越有收益。 树形 从根部开始,分模块介绍,比如私有云的运维,按照计算、存储、网络、管理等模块,逐个介绍。使用这个方案,建议画一个脑图。
运维启示录:集群的稳定性不在于处理故障的能力,而在于预见故障的智慧。 容器化改造面临三大挑战:1)HDFS的本地存储需要hostPath卷直通 2)动态端口分配需重写getPort()方法 3)节点亲和性策略要适配K8s调度器。 我们开发了云原生存活探针适配器:将Hadoop的NodeHealthChecker与K8sreadinessProbe进行协议转换,成功解决健康检查不兼容问题。 八、智能运维的未来图景在某智慧城市的超大规模集群中,我们构建了AI运维中台:通过LSTM模型预测集群负载,结合强化学习进行参数调优推荐。系统每日处理2TB运维数据,自动生成《健康度诊断报告》。 让技术经验流动起来 ▌▍▎▏ 你的每个互动都在为技术社区蓄能 ▏▎▍▌ ✅ 点赞 → 让优质经验被更多人看见 收藏 → 构建你的专属知识库 转发 → 与技术伙伴共享避坑指南 点赞 ➕ 收藏
冷菠 冷菠,资深DBA,著有《Oracle高性能自动化运维》,有近10年的数据库运维、团队管理以及培训经验。擅长数据库备份恢复、数据库性能诊断优化以及数据库自动化运维等。 6、使用以下命令,关闭数据库: shutdown immediate; 7、修改init.ora初始化参数文件,重新配置新的回滚段表空间,如下所示: 8、正常启动数据库,并重建spfile: startup
春节对咱们运维人来说,从来不是单纯的假期,而是一场“保稳定”的硬仗。 下面结合我这些年的一线实操经验,拆解各核心组件的巡检要点和常用命令,都是实打实能用得上的干货。 K8s容器集群:重点盯Pod和节点状态集群状态先摸清:kubectl get nodes先看所有节点是不是Ready状态,有NotReady节点赶紧排查,春节期间少一个节点,整体承载压力就大一分。
堡垒机 有时候也叫运维审计系统,可以配合 Windows 域或其他认证系统,对运维人员的操作进行审计。网络的访问控制做的好的话,个人认为堡垒机是安全运维里面最有用的设备之一。 从工作职责说明上写清楚安全运维人员的职责和绩效评估方法,因为安全设备的运维都属于日常性的工作,可以做工作计划,按照计划推动安全设备的日常运维工作。 结合运维、开发部门流程将与安全流程整合到一起。 如果运维部门有类似的系统,放在一起做。设备少的情况下也可以手工记录。 定期对业务网络环境做漏洞扫描,跟业务部门、开发部门、运维部门确认漏洞修复状态,不能修复的说明情况,采取补偿的方式对有漏洞系统进行防护。
文章目录如下,是笔者过去5年作为乙方在多个银行设计和落地应用运维自动化的经验分享,共11000字,阅读时长大约10分钟。 本文主要聚焦于银行IT运维组织中的应用运维,分析应用运维如何提升自己的运维水平和方式以适应业务转型、信息系统架构异构化的发展要求。 运维质量及安全级别要求高:在运维工作复杂度和负担不断增加的情况下,运维如何保持既有运维质量、保障和提升系统可用率,成为应用运维的难题。 运维工作如此繁重,运维人员在横向扩展自己运维技能的同时,还有时间往运维开发、大数据或AI等纵向技术领域转型吗? 应用运维,指的是对应用系统的运维,既包含对应用程序的发布、变更等运维工作,也包含对应用系统整体的健康巡检、监控等运维工作。
◆ 一、开源项目简介 滴滴LogiAM来源于滴滴多年来大量的运维实践经验。经历过多方考验,对于大规模Agent日志采集治理管控及巡检诊断已经沉淀出一套完善的解决方案。 运行时指标对Agent是否运行健康进行检查 日志采集任务健康度巡检:基于日志采集任务在各Agent运行时指标对日志采集任务是否运行健康进行检查 ◆ 核心优势 稳定可靠的采集引擎:基于滴滴内部多年来沉淀的经验 高效的问题诊断、定位能力:具有卓越的指标诊断体系,将Agent、日志采集任务运行时状态全景数字化呈现,实时监控Agent及采集任务健康度,提供故障诊断功能并开具相应诊断报告,可高效快捷的实现问题定位 强大的运维能力 :基于滴滴多年各核心业务、海量Agent与采集任务的运维经验,对于超大规模Agent与采集任务的治理管控及巡检诊断已经沉淀出一套完善的解决方案。 实时查看运维任务,便于运维人员把控运维任务进度及状态 ◆ 五、技术选型 ◆ 滴滴Logi-Agent架构图 ◆ Agent Manager 本地开发环境搭建 ◆ 1 环境准备 ◆ 1.1 环境依赖
、nginx、tomcat的安装部署及优化; 3,具有良好的故障排查能力,良好的逻辑分析能力及技术敏感度; 4,熟悉掌握使用shell、python脚本语言,能熟练进行脚本/工具开发,对自动化运维有较深入的理解或者经验者优先 【 职位要求 】 计算机相关专业,本科及以上学历,至少2年以上的大规模系统运维经验,2年以上运维开发经验,有deveops开发经验或有中大型互联网公司运维自动化经验者优先; 具备openstack 或docker集群运维经验; 掌握shell/python/perl/php其中一种脚本语言,有Python实际项目经验,熟练掌握Django、Tornado等任一Web开发框架者优先; (saltstack、ansible、puppet),有二次开发经验优先; 熟悉linux/uinx,windows操作系统基础原理及常用操作; 熟悉常见运维配置及优化,如Svn/git 高级运维,一般5-10年经验,薪资15-35k左右 终点 技术是没有终点的,当然可以有你自己的终点。当工作10年,技术已经很厉害了,就需要靠拢一些别的东西了。