搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏码农架构
Kafka宕机后不再高可用？探究Kafka高可用实现
Kafka宕机引发的高可用问题 ---- 问题要从一次Kafka的宕机开始说起。从Kafka部署后，系统内部使用的Kafka一直运行稳定，没有出现不可用的情况。但最近系统测试人员常反馈偶有Kafka消费者收不到消息的情况，登陆管理界面发现三个节点中有一个节点宕机挂掉了。 Kafka 的多副本冗余设计 ---- 不管是传统的基于关系型数据库设计的系统，还是分布式的如zookeeper、redis、Kafka、HDFS等等，实现高可用的办法通常是采用冗余设计，通过冗余来解决节点宕机不可用问题解决问题 ---- 绕了一大圈，了解了Kafka的高可用机制，终于回到我们一开始的问题本身，Kafka的一个节点宕机后为什么不可用？所以，只要将Topic副本个数设置为和Broker个数一样，Kafka的多副本冗余设计是可以保证高可用的，不会出现一宕机就不可用的情况（不过需要注意的是Kafka有一个保护策略，当一半以上的节点不可用时
64520发布于 2021-09-18
来自专栏陈树义
服务器宕机了，Kafka 消息会丢失吗？
这里所说的某些情况，从严重程度依次为：Kafka 宕机、服务器宕机、机房地震、城市毁灭、地球毁灭。不要觉得树哥在危言耸听，如果你的服务器部署在乌克兰的首都，那是不是就会遭遇城市毁灭的风险了？在这种情况下，如果 Leader 分片所在服务器发生宕机，那么这些已经发送的数据会丢失。这时候如果 Kafka 所在服务器断电或宕机，那么消息也是丢失了。而如果只是 Kafka 服务崩溃，那么消息并不会丢失。如果服务器宕机了，即使我们设置了每来一条消息就写入一次磁盘，那么也有可能在写入 PageCache 后、写入磁盘前这个关键点，服务器发生宕机。对于大多数的应用，考虑服务器宕机级别的情况下，对于 Kafka 消息来说，只需要考虑如下几个内容即可：生产者。根据业务重要性，设置好 acks 参数，并做好业务重试，以及告警记录即可。
3.1K31编辑于 2022-09-08
来自专栏深度学习与python
如何零宕机将本地 Kafka 集群迁移上云？
为防止 Kafka 集群在生产中出现不稳定的情况，我们决定将自托管的 Kafka 集群迁移到 Confluent Cloud，并将每个数据中心的单集群分割成多个集群。为什么要云托管 Kafka 集群？自管理一个 Kafka 集群并非易事，尤其是在执行一些任务时，例如重新平衡 brokers 之间的分区，或者升级 brokers 版本等，这些必须认真规划和实施。透明的版本升级 Kafka 的代码库不断得到改进，尤其是专注于 KIP-500：元数据将存储在 Kafka 内的分区中，而不是存储在 ZooKeeper，控制器将成为该分区的 leader。将 2000 个微服务切换到多集群 Kafka 架构在 Wix，我们拥有一个标准的 JVM 库和代理服务，用于与 Kafka 进行交互，称为 Greyhound。零宕机迁移在实时流量中执行迁移，就意味着必须进行细致的规划和实施。
1.5K20编辑于 2022-04-19
来自专栏业余草
慌得一逼，Kafka宕机后不再高可用？吓死宝宝了
p=5107 问题要从一次 Kafka 的宕机开始说起。 Kafka 宕机引发的高可用问题从 Kafka 部署后，系统内部使用的 Kafka 一直运行稳定，没有出现不可用的情况。但最近系统测试人员常反馈偶有 Kafka 消费者收不到消息的情况，登陆管理界面发现三个节点中有一个节点宕机挂掉了。 Kafka 的多副本冗余设计不管是传统的基于关系型数据库设计的系统，还是分布式的如 Zookeeper、Redis、Kafka、HDFS 等等，实现高可用的办法通常是采用冗余设计，通过冗余来解决节点宕机不可用问题解决问题绕了一大圈，了解了 Kafka 的高可用机制，终于回到我们一开始的问题本身，Kafka 的一个节点宕机后为什么不可用？
1.3K20发布于 2020-10-10
来自专栏悠扬前奏的博客
Kafka-11.设计-日志压缩
日志压缩可以保证Kafka总是最少保留单个主题分区的数据日志中的每个消息的key的最后的已知值。（Log compaction ensures that Kafka will always retain at least the last known value for each message
74340发布于 2019-06-19
来自专栏全栈程序员必看
java检测tomcat宕机_Tomcat意外宕机分析
之前在网上看过一篇文章，是讲Tomcat进程意外退出的，我看完感觉好奇，自己也测试了下，果然是有这种问题，所以自己也借此总结一下。
1.9K10编辑于 2022-09-14
来自专栏不温卜火
Kafka快速入门系列(11) | Kafka中如何自定义Interceptor及其原理
本篇博主带来的是Kafka中如何自定义Interceptor及其原理。 1. 增加时间戳拦截器 package com.buwenbuhuo.kafka.interceptor; import org.apache.kafka.clients.producer.ProducerInterceptor ; import org.apache.kafka.clients.producer.ProducerRecord; import org.apache.kafka.clients.producer.RecordMetadata 创建一个生产者 package com.buwenbuhuo.kafka.interceptor; import org.apache.kafka.clients.producer.KafkaProducer ; import org.apache.kafka.clients.producer.Producer; import org.apache.kafka.clients.producer.ProducerConfig
84320发布于 2020-10-28
来自专栏数据开发笔记
mysql宕机日记
今天博客突然打不开，一看需要连接数据库的网站都挂了,静态网站没挂，猜测是数据库问题。
1.3K21编辑于 2022-01-17
来自专栏艾小仙
《我想进大厂》之kafka夺命连环11问
说说你对kafka的理解 kafka是一个流式数据处理平台，他具有消息系统的能力，也有实时流式数据处理分析能力，只是我们更多的偏向于把他当做消息队列系统来使用。如果说按照容易理解来分层的话，大致可以分为3层：第一层是Zookeeper，相当于注册中心，他负责kafka集群元数据的管理，以及集群的协调工作，在每个kafka服务器启动的时候去连接到Zookeeper kafka是怎么做到支持这两种模型的？实际上，Kafka通过消费者分组的方式灵活的支持了这两个模型。能说说kafka通信过程原理吗？你知道新版本Kafka为什么抛弃了Zookeeper吗？
67430发布于 2021-11-08
来自专栏IT技术精选文摘
《我想进大厂》之kafka夺命连环11问
说说你对kafka的理解 kafka是一个流式数据处理平台，他具有消息系统的能力，也有实时流式数据处理分析能力，只是我们更多的偏向于把他当做消息队列系统来使用。如果说按照容易理解来分层的话，大致可以分为3层：第一层是Zookeeper，相当于注册中心，他负责kafka集群元数据的管理，以及集群的协调工作，在每个kafka服务器启动的时候去连接到Zookeeper ，把自己注册到Zookeeper当中第二层里是kafka的核心层，这里就会包含很多kafka的基本概念在内： record：代表消息 topic：主题，消息都会由一个主题方式来组织，可以理解为对于消息的一个分类 producer：生产者，负责发送消息 consumer：消费者，负责消费消息 broker：kafka服务器 partition：分区，主题会由多个分区组成，通常每个分区的消息都是按照顺序读取的，不同的分区无法保证顺序性
44640编辑于 2022-04-08
来自专栏云头条
AWS 再次宕机
这些故障并不是独特的事件，因为自2011年以来此前已发生过多起另外的类似事件，包括2020年11月影响了US-EAST-1区域的大规模故障事件。
1.2K10编辑于 2022-03-18
来自专栏全栈程序员必看
【致远FAQ】致远OA宕机之Tomcat异常宕机
停机的时间，如图3所示： 4)对比tomcat停机的时间，查看操作系统的日志/var/log/messages在15:32:28相关日志内容，如图4所示，可以得出以下信息： 5)tomcat宕机 jstack堆栈快照图7 jstack堆栈快照图8 ctp.log日志片段修改与建议该问题的解决，也能解释之前项目现场其他环境下没有异常日志生成，却出现了tomcat异常宕机的情况
1.9K30编辑于 2022-09-15
来自专栏FHADMIN
Redis宕机快速恢复
9059917216012421e8e89a4aa02f15b75346d2b7 为master数据库添加了一个监控发现了2个slave（由此可以看出，哨兵无需配置slave，只需要指定master，哨兵会自动发现slave） 5、从宕机及恢复 20:09:33.509 # +sdown slave 127.0.0.1:6380 127.0.0.1 6380 @ taotaoMaster 127.0.0.1 6379 说明已经监控到slave宕机了 6、主宕机及恢复哨兵控制台打印出如下信息： 2989:X 05 Jun 20:16:50.300 # +sdown master taotaoMaster 127.0.0.1 6379 说明master 服务已经宕机 2989:X 05 Jun 20:16:50.300 # +odown master taotaoMaster 127.0.0.1 6379 #quorum 1/1 2989:X 05 Jun 20:17:22.463 # +sdown slave 127.0.0.1:6379 127.0.0.1 6379 @ taotaoMaster 127.0.0.1 6381 发现6379已经宕机
1K20发布于 2021-08-02
来自专栏FreeBuf
苹果“天气”宕机
苹果天气短暂“宕机”一事影响范围甚广，包括 iOS、watchOS 和 macOS 在内多个 Apple 平台上的天气应用受到影响，不仅国内用户无法在天气应用中查看选定地区的实时天气预报，全球多个地区的用户同样如此对于苹果天气短暂“宕机”一事，苹果客服回应称没有接到相关反馈，请尝试对设备进行重启或将系统更新至最新版本。精彩推荐
64320编辑于 2023-04-06
来自专栏bisal的个人杂货铺
Facebook宕机的经验
社交大佬Facebook最近有点烦，因为在美国当地时间4日清晨，有用户反映，再也无法刷新Facebook诸多社交网站，涉及到全球数十个国家和地区的用户，直到宕机近7个小时后，美国当地时间下午三点，Facebook 当地时间5日，Facebook表示4号一度出现大范围宕机故障的原因，是工程师错误地发出了一条指令，导致了错误的配置更改，切断了FB的数据中心在全球范围内的所有网络连接，但是目前没有证据表明用户数据因宕机而被泄露
97740发布于 2021-10-12
hadoop宕机恢复流程
Hadoop集群宕机恢复流程一、NameNode宕机恢复 ‌确认故障状态‌ 检查日志(/var/log/hadoop)确认NameNode进程是否异常终止验证Active NameNode是否无法响应 locations > fsck_report.txt # 生成块分布报告 hdfs dfsadmin -metasave metasave.log # 保存元数据镜像备份 DataNode宕机恢复 yarn rmadmin -transitionToActive --forcemanual rm2 # YARN资源管理器切换故障原因通常有： 1）如果MR造成系统宕机。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB） 2）如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。例如，可以调整Flume每批次拉取数据量的大小参数batchsize。
20310编辑于 2025-12-23
来自专栏why技术
哦豁，宕机了...
11 日中午，技术出身的李华发布了一篇 2000 字长文，向用户致歉，文章里更多的篇幅却是从技术角度解释为什么会“宕机”。，此次宕机长达近 7 个小时，刷新了 Facebook 自 2008 年以来的最长宕机时长。 5 月 11 日，Salesforce 的服务开始不可用，宕机持续了 5 个小时。事后，Salesforce 公司组织了一次客户简报会，完整披露了事件情况与相关工程师的操作流程。谷歌云全球宕机 2 小时 11 月 16 日，据国外媒体报道，全球最大的云服务提供商之一谷歌云（Google Cloud）出现了宕机，导致许多依赖于谷歌云的大型公司网站中断服务。 11 月 12 日，一位 Google 工程师就发现此漏洞。谷歌原计划于 11 月 15 日推出补丁，但是不巧的是还没修复完，服务中断就发生了。
1.6K60编辑于 2022-02-17
来自专栏FreeBuf
ChatGPT 全球宕机 12 小时
美国时间 3 月 20 日，大量用户爆料 ChatGPT 出现宕机，当登录账户时，网站弹出报错警告，无法正常使用。值得一提的是，即使有特权的Plus账户也未能幸免。鉴于目前 ChatGPT 的火爆程度，宕机消息一出，迅速引爆国内外媒体，一时间，#ChatGPT崩了#、#chatgptdown#等热门话题刷屏社交媒体。宕机事件爆出几个小时后，OpenAI 团队开始组织专家抢修，最终官方花了快 5 个小时才解决了这一事故，此时距离 ChatGPT 大规模宕机已经过去12个多小时。 ChatGPT 问世以来多次宕机 2 月 7 日晚间，媒体披露 ChatGPT 因访问量激增而宕机。多位用户尝试使用不同浏览器访问ChatGPT，但都登陆不上，且收到“满负荷运转”的弹窗提示。对于宕机原因，业内多位技术专家指出，ChatGPT 自问世以来，持续火爆，除老用户外，新用户注册量每天都处于“高位”。不仅如此，大量类似于微信小程序的外挂链接也在高频访问，出现宕机并不意外。
1.2K70编辑于 2023-03-29
来自专栏CNCF
Kubernetes 零宕机滚动更新
但是 Kubernetes Ingress 连接到实例的方式稍有不同，这就是为什么当客户端通过 Ingresss 连接到应用程序的时候，我们会在滚动更新过程中查看到不同的宕机行为。零宕机那么如何增强我们的应用程序以实现真正的零宕机迁移呢？首先，要实现这个目标的先决条件是我们的容器要正确处理终止信号，在 SIGTERM 信号上实现优雅关闭。
1.8K21发布于 2020-02-20
来自专栏AI科技大本营的专栏
Gmail全球大规模宕机
整理 | 非主流出品 | AI科技大本营（ID: rgznai100）今天（3 月 13 日），Google 的多项服务在全球范围内出现了不同程度的宕机，包括 Gmail、Google Drive、据悉，此次宕机涉及范围较广，对全球用户都造成了影响，包括美国、欧洲、亚洲、澳大利亚和南美洲等地区。
1.3K20发布于 2019-03-19

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Kafka宕机后不再高可用？探究Kafka高可用实现

服务器宕机了，Kafka 消息会丢失吗？

如何零宕机将本地 Kafka 集群迁移上云？

慌得一逼，Kafka宕机后不再高可用？吓死宝宝了

Kafka-11.设计-日志压缩

java检测tomcat宕机_Tomcat意外宕机分析

Kafka快速入门系列(11) | Kafka中如何自定义Interceptor及其原理

mysql宕机日记

《我想进大厂》之kafka夺命连环11问

《我想进大厂》之kafka夺命连环11问

AWS 再次宕机

【致远FAQ】致远OA宕机之Tomcat异常宕机

Redis宕机快速恢复

苹果“天气”宕机

Facebook宕机的经验

hadoop宕机恢复流程

哦豁，宕机了...

ChatGPT 全球宕机 12 小时

Kubernetes 零宕机滚动更新

Gmail全球大规模宕机

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Kafka宕机后不再高可用？探究Kafka高可用实现

服务器宕机了，Kafka 消息会丢失吗？

如何零宕机将本地 Kafka 集群迁移上云？

慌得一逼，Kafka宕机后不再高可用？吓死宝宝了

Kafka-11.设计-日志压缩

java检测tomcat宕机_Tomcat意外宕机分析

Kafka快速入门系列(11) | Kafka中如何自定义Interceptor及其原理

mysql宕机日记

《我想进大厂》之kafka夺命连环11问

《我想进大厂》之kafka夺命连环11问

AWS 再次宕机

【致远FAQ】致远OA宕机之Tomcat异常宕机

Redis宕机 快速恢复

苹果“天气”宕机

Facebook宕机的经验

hadoop宕机恢复流程

哦豁，宕机了...

ChatGPT 全球宕机 12 小时

Kubernetes 零宕机滚动更新

Gmail全球大规模宕机

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Redis宕机快速恢复