首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏码农架构

    Kafka宕机后不再高可用?探究Kafka高可用实现

    Kafka宕机引发的高可用问题 ---- 问题要从一次Kafka宕机开始说起。 从Kafka部署后,系统内部使用的Kafka一直运行稳定,没有出现不可用的情况。 但最近系统测试人员常反馈偶有Kafka消费者收不到消息的情况,登陆管理界面发现三个节点中有一个节点宕机挂掉了。 Kafka 的多副本冗余设计 ---- 不管是传统的基于关系型数据库设计的系统,还是分布式的如zookeeper、redis、Kafka、HDFS等等,实现高可用的办法通常是采用冗余设计,通过冗余来解决节点宕机不可用问题 解决问题 ---- 绕了一大圈,了解了Kafka的高可用机制,终于回到我们一开始的问题本身,Kafka的一个节点宕机后为什么不可用? 所以,只要将Topic副本个数设置为和Broker个数一样,Kafka的多副本冗余设计是可以保证高可用的,不会出现一宕机就不可用的情况(不过需要注意的是Kafka有一个保护策略,当一半以上的节点不可用时

    71320发布于 2021-09-18
  • 来自专栏陈树义

    服务器宕机了,Kafka 消息会丢失吗?

    这里所说的某些情况,从严重程度依次为:Kafka 宕机、服务器宕机、机房地震、城市毁灭、地球毁灭。不要觉得树哥在危言耸听,如果你的服务器部署在乌克兰的首都,那是不是就会遭遇城市毁灭的风险了? 在这种情况下,如果 Leader 分片所在服务器发生宕机,那么这些已经发送的数据会丢失。 这时候如果 Kafka 所在服务器断电或宕机,那么消息也是丢失了。而如果只是 Kafka 服务崩溃,那么消息并不会丢失。 如果服务器宕机了,即使我们设置了每来一条消息就写入一次磁盘,那么也有可能在写入 PageCache 后、写入磁盘前这个关键点,服务器发生宕机。 对于大多数的应用,考虑服务器宕机级别的情况下,对于 Kafka 消息来说,只需要考虑如下几个内容即可: 生产者。 根据业务重要性,设置好 acks 参数,并做好业务重试,以及告警记录即可。

    3.4K31编辑于 2022-09-08
  • 来自专栏深度学习与python

    如何零宕机将本地 Kafka 集群迁移上云?

    为防止 Kafka 集群在生产中出现不稳定的情况,我们决定将自托管的 Kafka 集群迁移到 Confluent Cloud,并将每个数据中心的单集群分割成多个集群。 为什么要云托管 Kafka 集群? 自管理一个 Kafka 集群并非易事,尤其是在执行一些任务时,例如重新平衡 brokers 之间的分区,或者升级 brokers 版本等,这些必须认真规划和实施。 透明的版本升级 Kafka 的代码库不断得到改进,尤其是专注于 KIP-500:元数据将存储在 Kafka 内的分区中,而不是存储在 ZooKeeper,控制器将成为该分区的 leader。 将 2000 个微服务切换到多集群 Kafka 架构 在 Wix,我们拥有一个标准的 JVM 库和代理服务,用于与 Kafka 进行交互,称为 Greyhound。 零宕机迁移 在实时流量中执行迁移,就意味着必须进行细致的规划和实施。

    1.8K20编辑于 2022-04-19
  • 来自专栏业余草

    慌得一逼,Kafka宕机后不再高可用?吓死宝宝了

    p=5107 问题要从一次 Kafka宕机开始说起。 Kafka 宕机引发的高可用问题 从 Kafka 部署后,系统内部使用的 Kafka 一直运行稳定,没有出现不可用的情况。 但最近系统测试人员常反馈偶有 Kafka 消费者收不到消息的情况,登陆管理界面发现三个节点中有一个节点宕机挂掉了。 Kafka 的多副本冗余设计 不管是传统的基于关系型数据库设计的系统,还是分布式的如 Zookeeper、Redis、Kafka、HDFS 等等,实现高可用的办法通常是采用冗余设计,通过冗余来解决节点宕机不可用问题 解决问题 绕了一大圈,了解了 Kafka 的高可用机制,终于回到我们一开始的问题本身,Kafka 的一个节点宕机后为什么不可用?

    1.4K20发布于 2020-10-10
  • 来自专栏Hank’s Blog

    4-2 R语言函数 apply

    #apply函数,沿着数组的某一维度处理数据 #例如将函数用于矩阵的行或列 #与for/while循环的效率相似,但只用一句话可以完成 #apply(参数):apply(数组,维度,函数/函数名) > x <- matrix(1:16,4,4) > x [,1] [,2] [,3] [,4] [1,] 1 5 9 13 [2,] 2 6 10 14 [3,] 3 7 11 15 [4,] 4 8 12 16 >

    68510发布于 2020-09-16
  • 来自专栏全栈程序员必看

    java检测tomcat宕机_Tomcat意外宕机分析

    之前在网上看过一篇文章,是讲Tomcat进程意外退出的,我看完感觉好奇,自己也测试了下,果然是有这种问题,所以自己也借此总结一下。

    2.1K10编辑于 2022-09-14
  • 来自专栏趣学算法

    数据结构 第4-2讲 双向链表

    数据结构第4-2讲双向链表 链表是线性表的链式存储方式,逻辑上相邻的数据在计算机内的存储位置不一定相邻,那么怎么表示逻辑上的相邻关系呢? 可以给每个元素附加一个指针域,指向下一个元素的存储位置。

    92240发布于 2018-09-13
  • 来自专栏数据开发笔记

    mysql宕机日记

    今天博客突然打不开,一看需要连接数据库的网站都挂了,静态网站没挂,猜测是数据库问题。

    1.4K21编辑于 2022-01-17
  • 来自专栏Java

    试题 算法训练 4-2找公倍数

    试题 算法训练 4-2找公倍数 资源限制 内存限制:256.0MB C/C++时间限制:1.0s Java时间限制:3.0s Python时间限制:5.0s 问题描述   这里写问题描述。   

    22510编辑于 2025-01-21
  • 来自专栏云头条

    AWS 再次宕机

    亚马逊AWS今天再次遭遇故障,这起事件影响了众多在线服务,包括 Twitch、Zoom、PSN、Xbox Live、Doordash、Quickbooks Online和Hulu等。 据AWS的状态页面显示,这起故障始于太平洋标准时间上午7点43分左右,影响了US-WEST-1和US-WEST-2这两个区域。 据报道 ,这起事件已造成了严重的互联网连接问题,导致一大批在线平台和网站随之瘫痪。 AWS的工程师们正在努力搞清楚这次故障背后的根本原因,并表示他们已经采取措施,以恢复互联网连接。 AWS状态页面显示

    1.3K10编辑于 2022-03-18
  • 来自专栏全栈程序员必看

    【致远FAQ】致远OA宕机之Tomcat异常宕机

    停机的时间,如图3所示: 4)对比tomcat停机的时间,查看操作系统的日志/var/log/messages在15:32:28相关日志内容,如图4所示,可以得出以下信息: 5)tomcat宕机 jstack堆栈快照 图7 jstack堆栈快照 图8 ctp.log日志片段 修改与建议 该问题的解决,也能解释之前项目现场其他环境下没有异常日志生成,却出现了tomcat异常宕机的情况

    2.1K30编辑于 2022-09-15
  • 来自专栏sringboot

    x86汇编加载用户程序-4-2

    索引寄存器的端口号是 0x3d4,可以向它写入一个值,用来指定内部的某个寄存器。比如, 两个 8 位的光标寄存器,其索引值分别是 14(0x0e)和 15(0x0f),分别用于提供光标位置的高 8 位和低 8 位。 指定了寄存器之后,要对它进行读写,这可以通过数据端口 0x3d5 来进行。 高八位 和第八位里保存这光标的位置,显卡文本模式显示标准是25x80,这样算来,当光标在屏幕右下角时,该值为 25×80-1=1999

    96330编辑于 2021-12-06
  • 来自专栏FHADMIN

    Redis宕机 快速恢复

    9059917216012421e8e89a4aa02f15b75346d2b7 为master数据库添加了一个监控 发现了2个slave(由此可以看出,哨兵无需配置slave,只需要指定master,哨兵会自动发现slave) 5、从宕机及恢复 20:09:33.509 # +sdown slave 127.0.0.1:6380 127.0.0.1 6380 @ taotaoMaster 127.0.0.1 6379 说明已经监控到slave宕机了 6、主宕机及恢复 哨兵控制台打印出如下信息: 2989:X 05 Jun 20:16:50.300 # +sdown master taotaoMaster 127.0.0.1 6379 说明master 服务已经宕机 2989:X 05 Jun 20:16:50.300 # +odown master taotaoMaster 127.0.0.1 6379 #quorum 1/1 2989:X 05 Jun 20:17:22.463 # +sdown slave 127.0.0.1:6379 127.0.0.1 6379 @ taotaoMaster 127.0.0.1 6381 发现6379已经宕机

    1.1K20发布于 2021-08-02
  • 来自专栏FreeBuf

    苹果“天气”宕机

    苹果天气短暂“宕机”一事影响范围甚广,包括 iOS、watchOS 和 macOS 在内多个 Apple 平台上的天气应用受到影响,不仅国内用户无法在天气应用中查看选定地区的实时天气预报,全球多个地区的用户同样如此 对于苹果天气短暂“宕机”一事,苹果客服回应称没有接到相关反馈,请尝试对设备进行重启或将系统更新至最新版本。 精彩推荐

    71820编辑于 2023-04-06
  • 来自专栏FreeBuf

    ChatGPT 全球宕机 12 小时

    美国时间 3 月 20 日,大量用户爆料 ChatGPT 出现宕机,当登录账户时,网站弹出报错警告,无法正常使用。值得一提的是,即使有特权的Plus账户也未能幸免。 鉴于目前 ChatGPT 的火爆程度,宕机消息一出,迅速引爆国内外媒体,一时间,#ChatGPT崩了#、#chatgptdown#等热门话题刷屏社交媒体。 宕机事件爆出几个小时后,OpenAI 团队开始组织专家抢修,最终官方花了快 5 个小时才解决了这一事故,此时距离 ChatGPT 大规模宕机已经过去12个多小时。 ChatGPT 问世以来多次宕机 2 月 7 日晚间,媒体披露 ChatGPT 因访问量激增而宕机。多位用户尝试使用不同浏览器访问ChatGPT,但都登陆不上,且收到“满负荷运转”的弹窗提示。 对于宕机原因,业内多位技术专家指出,ChatGPT 自问世以来,持续火爆,除老用户外,新用户注册量每天都处于“高位”。不仅如此,大量类似于微信小程序的外挂链接也在高频访问,出现宕机并不意外。

    1.3K70编辑于 2023-03-29
  • 来自专栏why技术

    哦豁,宕机了...

    互联网技术发展到了 2022 年,理论上来说是可以做到“永不宕机”的。但过去的 2021 年,宕机事故看起来一点也没有减少。 1国内宕机事件:交待清楚故障原因也是一种能力 B 站崩溃,让年轻人无心睡觉 7 月 13 日晚间,视频网站哔哩哔哩(B 站)出现服务器宕机事故,无法登陆的用户涌向其它站点,连锁导致了一系列宕机事故。 这次宕机本来并未引起证券行业之外的关注,但是随后富途创始人李华(叶子哥)的文章却让这次宕机事件火出了圈。 ,此次宕机长达近 7 个小时,刷新了 Facebook 自 2008 年以来的最长宕机时长。 AWS 一个月内发生 3 次宕机 在 2021 年的最后一个月,AWS 发生了 3 次宕机

    1.7K60编辑于 2022-02-17
  • 来自专栏bisal的个人杂货铺

    Facebook宕机的经验

    社交大佬Facebook最近有点烦,因为在美国当地时间4日清晨,有用户反映,再也无法刷新Facebook诸多社交网站,涉及到全球数十个国家和地区的用户,直到宕机近7个小时后,美国当地时间下午三点,Facebook 当地时间5日,Facebook表示4号一度出现大范围宕机故障的原因,是工程师错误地发出了一条指令,导致了错误的配置更改,切断了FB的数据中心在全球范围内的所有网络连接,但是目前没有证据表明用户数据因宕机而被泄露

    1.1K40发布于 2021-10-12
  • hadoop宕机恢复流程

    Hadoop集群宕机恢复流程 一、NameNode宕机恢复 ‌确认故障状态‌ 检查日志(/var/log/hadoop)确认NameNode进程是否异常终止 验证Active NameNode是否无法响应 locations > fsck_report.txt # 生成块分布报告 hdfs dfsadmin -metasave metasave.log # 保存元数据镜像备份 DataNode宕机恢复 yarn rmadmin -transitionToActive --forcemanual rm2 # YARN资源管理器切换 故障原因通常有: 1)如果MR造成系统宕机。 调整参数:yarn.scheduler.maximum-allocation-mb(单个任务可申请的最多物理内存量,默认是8192MB) 2)如果写入文件过快造成NameNode宕机。 那么调高Kafka的存储大小,控制从Kafka到HDFS的写入速度。例如,可以调整Flume每批次拉取数据量的大小参数batchsize。

    27710编辑于 2025-12-23
  • 来自专栏CNCF

    Kubernetes 零宕机滚动更新

    但是 Kubernetes Ingress 连接到实例的方式稍有不同,这就是为什么当客户端通过 Ingresss 连接到应用程序的时候,我们会在滚动更新过程中查看到不同的宕机行为。 零宕机 那么如何增强我们的应用程序以实现真正的零宕机迁移呢? 首先,要实现这个目标的先决条件是我们的容器要正确处理终止信号,在 SIGTERM 信号上实现优雅关闭。

    1.9K21发布于 2020-02-20
  • 来自专栏AI科技大本营的专栏

    Gmail全球大规模宕机

    整理 | 非主流 出品 | AI科技大本营(ID: rgznai100) 今天(3 月 13 日),Google 的多项服务在全球范围内出现了不同程度的宕机,包括 Gmail、Google Drive、 据悉,此次宕机涉及范围较广,对全球用户都造成了影响,包括美国、欧洲、亚洲、澳大利亚和南美洲等地区。

    1.5K20发布于 2019-03-19
领券