首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏sktj

    zookeeper 经验

    去哪儿网也在很多场景依赖Zookeeper,所以我们也一直在摸索怎么更好的稳定的Zookeeper集群。在过去的几年我们也踩过一些坑,也因为Zookeeper导致了故障。 现在将我们Zookeeper集群的一些经验分享,也欢迎大家提供更好的建议。 那么在打算一套Zookeeper集群之前,我们先了解一些Zookeeper的基本原理。 4. /usr/bin/env bash JAVA_HOME= #java home ZOO_LOG_DIR= #日志文件放置的路径 ZOO_LOG4J_PROP="INFO,ROLLINGFILE" #设置日志轮转

    61410编辑于 2022-05-20
  • 来自专栏有文化的技术人

    Zookeeper实践经验

    例如,我们有1、2、3、4、5、6、7七个节点。 经过以上配置,停掉节点2,3,4,5,6整个集群仍然是稳定的. 此时Group1和Group3是稳定状态. 需要考虑以机房/地域/业务等维度进行拆分 zk_approximate_data_size 说明:当快照体积过大时,ZK的节点重启后,会因为在initLimit的时间内同步不完整个快照而无法加入集群 经验值 尝试操作 创建/删除/读取节点 说明:在/zookeeper_monitor节点下,定期创建/删除节点,确保该功能可用 建议:创建/zookeeper_monitor节点,不要使用业务节点,避免互相影响 经验值 在弹出的界面选择“远程进程”,输入“服务器IP:9991”(zookeeper服务器的IP和端口) 实践经验 分Group 要确保Zookeeper整个集群可靠运行,就是要确保投票集群可靠。

    1.8K30编辑于 2022-10-27
  • 来自专栏kafka专栏

    4.【kafka】Leader重新选举脚本(4)

    文章目录 kafka-leader-election Leader重新选举 More 日常 、问题排查 怎么能够少了滴滴开源的 滴滴开源LogiKM一站式Kafka监控与管控平台 kafka-leader-election 进行Leader重选举 > sh bin/kafka-leader-election.sh --bootstrap-server xxxx:9090 --topic test_create_topic4 和分区进行Leader重选举 先配置leader-election.json文件 { "partitions": [ { "topic": "test_create_topic4" , "partition": 1 }, { "topic": "test_create_topic4", "partition": 2 } 三者互斥 --path-to-json-file 配置文件批量选举,此参数跟--topic和all-topic-partitions 三者互斥 More Kafka专栏持续更新中…(源码、原理、实战、

    48820发布于 2021-08-05
  • 来自专栏万亿日志之道

    日志系统Kafka经验

    背景介绍: 从事日志系统的开发运1年多了,Kafka集群一直是系统中最重要的集群之一。及时有效地处理Kafka问题,是保障系统运行稳定的重要工作。 3:在故障机器停机后,创建新的Topic替换旧的Topic(新的Topic所有partition都落在正常的机器上) 4:可以使用kafka reassign partitions工具,将故障机器上的partition 问题4:数据回放 Kafka集群中日志一般保持1天,如果在1天内有需要特殊处理的数据,就需要对Kafka数据重新读取。 (二)Kafka监控 image.png 在运kafka系统的过程中,我们根据业务的特点,为了能及时发现上述问题,对所有的集群进行了如下方面的监控: 1,生产者offset变化监控(partition 4,ISR监控 监控是否所有的partition都具有多个可用副本,保证没有因为机器故障未处理的单副本partition,也能及时发现kafka集群负载高导致的副本无法及时保持与leader数据同步的问题

    4.1K11发布于 2020-03-15
  • 来自专栏蓝鲸智云

    老司机:问题排查经验总结

    (发布变更、监控处理、数值调整、数据提取等)的无人值守服务,而且还给人员提供了解决方案(工具),并随时调整,避免重复性的操作服务。 其实做练就的是一种心态,足够淡定遇事而不乱,从容应对才是真。 排查出问题并找到根本原因加以解决,个人认为是一件很成就感的事情。曾经有人问过我:“你是怎么想到问题出现在xxx的? 八、总结记录,破案归档 好记性不如烂笔头,然而在一片混乱问题分析当中,让心平气和地记录下问题与判断确实有点不切实际。 专家或许是每个人追寻的梦想,他们敏锐的嗅觉似乎总能揪出系统故障的根本原因。这种快速反应、准确定位的能力源自多年来处理复杂系统难题的经验积累与个人知识储备,而且其成功很难被复制。 文中涉及的方法、经验和思想不代表最佳实践。 --- 蓝鲸智云简介 腾讯蓝鲸智云(简称蓝鲸)软件体系是一套基于PaaS的技术解决方案,致力于打造行业领先的一站式自动化平台。

    1.8K60编辑于 2022-04-25
  • 来自专栏腾讯技术工程官方号的专栏

    老司机:问题排查经验总结

    导语:可以说是世界上最紧张且强度最大的工作之一,每个杂乱无章的问题背后都需要我们的深入的抽丝剥茧。尤其是当你面对的问题直接与收入业务、海量服务运营挂钩时,可谓是肾上腺素瞬间飙升。 排查问题犹如破案 排查线上问题犹如警察破案一样,是一个不停分析线索,推理的过程,但在准备排查问题之前,我们应该明白三个认知:认知,几乎是人和人之间唯一的本质差别。 卷宗记录,破案归档 好记性不如烂笔头,然而在一片混乱问题分析当中,让心平气和地记录下问题与判断确实有点不切实际。 4、建立集中的数据可视平台,不至于遇到问题才开始着手分析,若是对业务没有足够的了解又没有数据依赖,就很可能在解决问题时雪上加霜。 结语 专家或许是每个人追寻的梦想,他们敏锐的嗅觉似乎总能揪出系统故障的根本原因。这种快速反应、准确定位的能力源自多年来处理复杂系统难题的经验积累与个人知识储备,而且其成功很难被复制。

    3K30发布于 2017-08-16
  • 来自专栏python3

    python开发笔记4

    ['mysql','-u','root','-p123','-e','show processlist']

    92210发布于 2020-01-15
  • 经验|Linux虚拟机如何挂载磁盘

    一般主板上有两个SCSI接口,因此一共可以安装4个SCSI设备。主SCSI上的两个设备分别对应sda和sdb,第二个SCSI口上的设备对应sdc和sdd。 4、 实施磁盘分区 【格式】fdisk [盘号/盘位置/盘节点] 【实践】执行 fdisk /dev/sdb 在Linux进行挂载。 这六步骤分别为: (1)第一步 直接输入n,新建一个分区(可以参考4、(1)帮助第一个命令) (2)第二步 只是选择主分区 (3)第三步 默认第一分区 (4)第四步 开始大小,使用默认,直接回车 5、 格式化写入文件系统 使用 mkfs.ext4 /dev/sdb1 命令来格式化磁盘并写入到文件系统中。 注意:这里可以用ext3,也可以用ext4。可以到/dev目录下查看有哪些格式。 /dev/sdb1 /disk_mount ext4 defaults 0 1 // 如果上面用的是ext3,这里也要用ext3; 此时,如果你在测试环境,可以重启试试。

    1.9K10编辑于 2024-04-01
  • 来自专栏开发运维工程师

    经验|Linux虚拟机如何挂载磁盘

    所以,我们需要额外的命令工具来做支撑,实验之前,先检查下机器已经挂载的磁盘,可使用lsblk命令来查询,如果不了解这个命令,可以参考博主以前的博文:Linux工具|工具lsblk使用小妙招 注意:Linux 一般主板上有两个SCSI接口,因此一共可以安装4个SCSI设备。主SCSI上的两个设备分别对应sda和sdb,第二个SCSI口上的设备对应sdc和sdd。 4、 实施磁盘分区 【格式】fdisk [盘号/盘位置/盘节点] 【实践】执行 fdisk /dev/sdb 在Linux进行挂载。 这六步骤分别为: (1)第一步 直接输入n,新建一个分区(可以参考4、(1)帮助第一个命令) (2)第二步 只是选择主分区 (3)第三步 默认第一分区 (4)第四步 开始大小,使用默认,直接回车 (5) 5、 格式化写入文件系统 使用mkfs.ext4 /dev/sdb1 命令来格式化磁盘并写入到文件系统中。 注意:这里可以用ext3,也可以用ext4。可以到/dev目录下查看有哪些格式。

    1.7K1210编辑于 2023-12-22
  • 来自专栏DBA随笔

    Redis开发与学习笔记---(4)

    4 迁移键 redis中,提供了3中迁移键的方法: move dump+restore migrate 下面分别介绍: 1、move move命令用户在多个数据库中进行键迁移。

    56910发布于 2020-03-31
  • 来自专栏力哥聊运维与云计算

    聊聊(2)公开运技术分享的一些经验

    技术分享三条实战经验: ● 良好的逻辑性 ● 自己真实经验总结 ● 多练习 首先,说明下,我不是技术分享高手,分享了次数比较多,有点心得;另外,听的分享多了,对好坏也有一些感受。 还有,在此特别感谢下西山居的开发架构师,《Puppet实战》的作者刘宇,我的许多分享经验来自于宇哥,并且得到了宇哥多次的,一对一贴身的,手把手的指点。 二 如何做好技术分享 1.做好功课,了解听众 分享通常是思路、方法、及在某些方面的技术实践,因为需要背景知识,不是所有人都能听懂,所以了解自己的听众非常重要,比如对于刚入行的朋友和资深的从业者,内容和深度就应该不一样 树形 从根部开始,分模块介绍,比如私有云的,按照计算、存储、网络、管理等模块,逐个介绍。使用这个方案,建议画一个脑图。 4.多练习 大部分人,面对众多的眼睛的注视都会紧张,应对的方法就是多练习,尤其是第一次分享,最好能做到,看到自己的PPT,就能自然反应式的说出来。 多练习还包括多登台,分享的多了,自然感觉也就来了。

    1.2K20发布于 2019-06-28
  • 来自专栏大数据

    大规模Hadoop集群管理:经验与监控策略

    四、故障自愈的防御体系在构建智能维系统时,我们提炼出"故障三态模型":瞬时故障(如网络抖动)、间歇故障(如磁盘坏道)、持久故障(如节点宕机)。 启示录:集群的稳定性不在于处理故障的能力,而在于预见故障的智慧。 通过hprof分析发现,调整G1HeapRegionSize至4MB使GC停顿减少58%;采用SSD缓存EditLog使NameNode吞吐量提升3倍。 八、智能的未来图景在某智慧城市的超大规模集群中,我们构建了AI中台:通过LSTM模型预测集群负载,结合强化学习进行参数调优推荐。系统每日处理2TB数据,自动生成《健康度诊断报告》。 让技术经验流动起来 ▌▍▎▏ 你的每个互动都在为技术社区蓄能 ▏▎▍▌ ✅ 点赞 → 让优质经验被更多人看见 收藏 → 构建你的专属知识库 转发 → 与技术伙伴共享避坑指南 点赞 ➕ 收藏

    47521编辑于 2025-09-12
  • 来自专栏悦专栏

    8 年 Redis 经验,我踩了哪些坑

    嘉宾介绍 朱文潇 ,大型互联网公司 8 年 Redis 实战经验,多次以核心身份主导 Redis 框架方案设计及落地实施,对 Redis 服务有深刻理解,对多种 Redis 实现方案都有独到的见解。 3)Codis 集群高可用方案:一款分布式缓存高可用集群产品,提供了配套的客户端,提供了动态数据迁移,内置高可用方案,产品设计解决了大部分痛点;同样,如果想阅读更多关于 Codis 的内容,可以点击我之前出的一篇文章 从 Redis 2.X 到 Redis 3.X 以上版本需要投入很多测试,整体的技术也有很大的变化,需要不断的研究、不断的学习,这也是对人员的考验。 4 所维护的集群最大 QPS 是多少? 1)Redis 源代码并不长,有能力的一定要好好欣赏一下作者的代码艺术; 2)付磊、张益军两位老师编写的《Redis 开发与》,有原理解读,有实战经验,值得一看; 3)Redis 社区活跃度比较高, 相关阅读 《用实战经验浅谈 Redis 核心技术》 第01期:你好!

    45220编辑于 2022-04-25
  • 来自专栏数据和云

    经验:回滚段异常的特殊救急方法

    冷菠 冷菠,资深DBA,著有《Oracle高性能自动化》,有近10年的数据库、团队管理以及培训经验。擅长数据库备份恢复、数据库性能诊断优化以及数据库自动化等。 _corrupted_rollback_segments=(r04) 回滚段r01、r02及r03为需要在线使用(onffline)的回滚段,r4为强制异常的回滚段。 4、在启动成功的数据中创建新的回滚段表空间,语法如下: create undo tablespace undotbs2 datafile '<path>' size 16384mautoextend retention

    2.2K90发布于 2018-03-08
  • 春节前云平台深度巡检-实操经验

    春节对咱们人来说,从来不是单纯的假期,而是一场“保稳定”的硬仗。 下面结合我这些年的一线实操经验,拆解各核心组件的巡检要点和常用命令,都是实打实能用得上的干货。 文件存储(NFS/SMB):挂载和读写别出问题NFS存储先⽤showmount -e 服务端IP确认共享目录正常暴露,再测试挂载mount -t nfs -o hard,nfsvers=4 服务端IP: 拷贝小文件测试读写,确保权限和连通性没问题,权限排查用nfs4_getfacl /本地挂载点/测试文件,快速定位权限不足导致的读写失败。 4. 带宽与流量:提前预留冗余在控制台看公网、内网带宽的使用情况,对比往年春节峰值,至少预留30%的冗余带宽,不够的话提前升级。

    26010编辑于 2026-02-03
  • 来自专栏FreeBuf

    经验分享 | 如何做好基础安全设备

    堡垒机 有时候也叫审计系统,可以配合 Windows 域或其他认证系统,对人员的操作进行审计。网络的访问控制做的好的话,个人认为堡垒机是安全里面最有用的设备之一。 从工作职责说明上写清楚安全人员的职责和绩效评估方法,因为安全设备的都属于日常性的工作,可以做工作计划,按照计划推动安全设备的日常工作。 结合、开发部门流程将与安全流程整合到一起。 如果部门有类似的系统,放在一起做。设备少的情况下也可以手工记录。 定期对业务网络环境做漏洞扫描,跟业务部门、开发部门、部门确认漏洞修复状态,不能修复的说明情况,采取补偿的方式对有漏洞系统进行防护。

    2.4K90发布于 2018-02-24
  • 来自专栏嘉为动态

    经验分享】银行应用平台设计与建设建议

    文章目录如下,是笔者过去5年作为乙方在多个银行设计和落地应用自动化的经验分享,共11000字,阅读时长大约10分钟。 本文主要聚焦于银行IT组织中的应用,分析应用如何提升自己的水平和方式以适应业务转型、信息系统架构异构化的发展要求。 质量及安全级别要求高:在运工作复杂度和负担不断增加的情况下,如何保持既有质量、保障和提升系统可用率,成为应用的难题。 工作如此繁重,人员在横向扩展自己技能的同时,还有时间往开发、大数据或AI等纵向技术领域转型吗? 应用,指的是对应用系统的,既包含对应用程序的发布、变更等工作,也包含对应用系统整体的健康巡检、监控等工作。

    2.1K31发布于 2020-05-26
  • 来自专栏IT大咖说

    经验沉淀,面向云原生的一站式日志采集配置及平台

    ◆ 一、开源项目简介 滴滴LogiAM来源于滴滴多年来大量的实践经验。经历过多方考验,对于大规模Agent日志采集治理管控及巡检诊断已经沉淀出一套完善的解决方案。 运行时指标对Agent是否运行健康进行检查 日志采集任务健康度巡检:基于日志采集任务在各Agent运行时指标对日志采集任务是否运行健康进行检查 ◆ 核心优势 稳定可靠的采集引擎:基于滴滴内部多年来沉淀的经验 高效的问题诊断、定位能力:具有卓越的指标诊断体系,将Agent、日志采集任务运行时状态全景数字化呈现,实时监控Agent及采集任务健康度,提供故障诊断功能并开具相应诊断报告,可高效快捷的实现问题定位 强大的能力 :基于滴滴多年各核心业务、海量Agent与采集任务的经验,对于超大规模Agent与采集任务的治理管控及巡检诊断已经沉淀出一套完善的解决方案。 实时查看任务,便于人员把控任务进度及状态 ◆ 五、技术选型 ◆ 滴滴Logi-Agent架构图 ◆ Agent Manager 本地开发环境搭建 ◆ 1 环境准备 ◆ 1.1 环境依赖

    1.7K20编辑于 2022-06-27
  • 来自专栏全栈工程师修炼之路

    Ansible自动化学习笔记4

    - name: "Demo 3" debug: msg: "{{ item }}" with_items: - 1 - 2 - 3 - 4 when: item > 1 and ( item == 3 or item ==5) #列表中的所有条件同时成立时,对应的任务才会执行 - name: "Demo 4" debug item=1) skipping: [local] => (item=2) ok: [local] => (item=3) => {"msg": 3} skipping: [local] => (item=4) testpath: /bin/bash teststr: "thisisstringdemo" testnum: 1024 a: - 2 - 5 b: [1,2,3,4,5 fail: #关键点 msg: "Interrupt running playbook" - debug: msg: "3" - debug: msg: "4"

    2.8K10发布于 2020-10-23
  • 来自专栏腾讯专有云

    平台第4期:数据掘金者

    通过与平台监控系统联动,帮助用户提升能力,降低安全风险。 日志平台预接入了专有云平台及各产品管控面的关键日志,系统人员无须配置即可开始快速使用,助力平台高效。 通过分析进一步洞悉系统风险,提升对系统问题的发现识别,为后续改进提供决策依据。 场景4:等保安全审计 企业在过等保或者做审计时,需要收集各种类型的日志,要求日志至少达到180天存储,部分日志需要永久保存,有的日志则要求通过相关国家安全加密。 开箱即用 预接入平台及各产品管控面的日志,不需要系统人员配置即可开始快速使用日志平台的各项功能。 往期 · 推荐 ‍‍‍‍‍‍‍专题第1期:数据中枢 专题第2期:警戒哨兵 专题第3期:诊断专家‍‍‍‍‍‍ 一朵云,搞掂!

    1.6K30编辑于 2022-06-24
领券