搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏码农架构
Kafka宕机后不再高可用？探究Kafka高可用实现
Kafka宕机引发的高可用问题 ---- 问题要从一次Kafka的宕机开始说起。从Kafka部署后，系统内部使用的Kafka一直运行稳定，没有出现不可用的情况。但最近系统测试人员常反馈偶有Kafka消费者收不到消息的情况，登陆管理界面发现三个节点中有一个节点宕机挂掉了。 Kafka 的多副本冗余设计 ---- 不管是传统的基于关系型数据库设计的系统，还是分布式的如zookeeper、redis、Kafka、HDFS等等，实现高可用的办法通常是采用冗余设计，通过冗余来解决节点宕机不可用问题解决问题 ---- 绕了一大圈，了解了Kafka的高可用机制，终于回到我们一开始的问题本身，Kafka的一个节点宕机后为什么不可用？所以，只要将Topic副本个数设置为和Broker个数一样，Kafka的多副本冗余设计是可以保证高可用的，不会出现一宕机就不可用的情况（不过需要注意的是Kafka有一个保护策略，当一半以上的节点不可用时
70420发布于 2021-09-18
来自专栏陈树义
服务器宕机了，Kafka 消息会丢失吗？
这里所说的某些情况，从严重程度依次为：Kafka 宕机、服务器宕机、机房地震、城市毁灭、地球毁灭。不要觉得树哥在危言耸听，如果你的服务器部署在乌克兰的首都，那是不是就会遭遇城市毁灭的风险了？在这种情况下，如果 Leader 分片所在服务器发生宕机，那么这些已经发送的数据会丢失。这时候如果 Kafka 所在服务器断电或宕机，那么消息也是丢失了。而如果只是 Kafka 服务崩溃，那么消息并不会丢失。如果服务器宕机了，即使我们设置了每来一条消息就写入一次磁盘，那么也有可能在写入 PageCache 后、写入磁盘前这个关键点，服务器发生宕机。对于大多数的应用，考虑服务器宕机级别的情况下，对于 Kafka 消息来说，只需要考虑如下几个内容即可：生产者。根据业务重要性，设置好 acks 参数，并做好业务重试，以及告警记录即可。
3.4K31编辑于 2022-09-08
来自专栏深度学习与python
如何零宕机将本地 Kafka 集群迁移上云？
为防止 Kafka 集群在生产中出现不稳定的情况，我们决定将自托管的 Kafka 集群迁移到 Confluent Cloud，并将每个数据中心的单集群分割成多个集群。为什么要云托管 Kafka 集群？自管理一个 Kafka 集群并非易事，尤其是在执行一些任务时，例如重新平衡 brokers 之间的分区，或者升级 brokers 版本等，这些必须认真规划和实施。透明的版本升级 Kafka 的代码库不断得到改进，尤其是专注于 KIP-500：元数据将存储在 Kafka 内的分区中，而不是存储在 ZooKeeper，控制器将成为该分区的 leader。将 2000 个微服务切换到多集群 Kafka 架构在 Wix，我们拥有一个标准的 JVM 库和代理服务，用于与 Kafka 进行交互，称为 Greyhound。零宕机迁移在实时流量中执行迁移，就意味着必须进行细致的规划和实施。
1.8K20编辑于 2022-04-19
来自专栏业余草
慌得一逼，Kafka宕机后不再高可用？吓死宝宝了
p=5107 问题要从一次 Kafka 的宕机开始说起。 Kafka 宕机引发的高可用问题从 Kafka 部署后，系统内部使用的 Kafka 一直运行稳定，没有出现不可用的情况。但最近系统测试人员常反馈偶有 Kafka 消费者收不到消息的情况，登陆管理界面发现三个节点中有一个节点宕机挂掉了。 Kafka 的多副本冗余设计不管是传统的基于关系型数据库设计的系统，还是分布式的如 Zookeeper、Redis、Kafka、HDFS 等等，实现高可用的办法通常是采用冗余设计，通过冗余来解决节点宕机不可用问题解决问题绕了一大圈，了解了 Kafka 的高可用机制，终于回到我们一开始的问题本身，Kafka 的一个节点宕机后为什么不可用？
1.4K20发布于 2020-10-10
来自专栏全栈程序员必看
java检测tomcat宕机_Tomcat意外宕机分析
之前在网上看过一篇文章，是讲Tomcat进程意外退出的，我看完感觉好奇，自己也测试了下，果然是有这种问题，所以自己也借此总结一下。
2.1K10编辑于 2022-09-14
来自专栏数据开发笔记
mysql宕机日记
今天博客突然打不开，一看需要连接数据库的网站都挂了,静态网站没挂，猜测是数据库问题。
1.4K21编辑于 2022-01-17
来自专栏云头条
AWS 再次宕机
亚马逊AWS今天再次遭遇故障，这起事件影响了众多在线服务，包括 Twitch、Zoom、PSN、Xbox Live、Doordash、Quickbooks Online和Hulu等。据AWS的状态页面显示，这起故障始于太平洋标准时间上午7点43分左右，影响了US-WEST-1和US-WEST-2这两个区域。据报道，这起事件已造成了严重的互联网连接问题，导致一大批在线平台和网站随之瘫痪。 AWS的工程师们正在努力搞清楚这次故障背后的根本原因，并表示他们已经采取措施，以恢复互联网连接。 AWS状态页面显示
1.3K10编辑于 2022-03-18
来自专栏全栈程序员必看
【致远FAQ】致远OA宕机之Tomcat异常宕机
停机的时间，如图3所示： 4)对比tomcat停机的时间，查看操作系统的日志/var/log/messages在15:32:28相关日志内容，如图4所示，可以得出以下信息： 5)tomcat宕机 jstack堆栈快照图7 jstack堆栈快照图8 ctp.log日志片段修改与建议该问题的解决，也能解释之前项目现场其他环境下没有异常日志生成，却出现了tomcat异常宕机的情况
2.1K30编辑于 2022-09-15
来自专栏FHADMIN
Redis宕机快速恢复
9059917216012421e8e89a4aa02f15b75346d2b7 为master数据库添加了一个监控发现了2个slave（由此可以看出，哨兵无需配置slave，只需要指定master，哨兵会自动发现slave） 5、从宕机及恢复 20:09:33.509 # +sdown slave 127.0.0.1:6380 127.0.0.1 6380 @ taotaoMaster 127.0.0.1 6379 说明已经监控到slave宕机了 6、主宕机及恢复哨兵控制台打印出如下信息： 2989:X 05 Jun 20:16:50.300 # +sdown master taotaoMaster 127.0.0.1 6379 说明master 服务已经宕机 2989:X 05 Jun 20:16:50.300 # +odown master taotaoMaster 127.0.0.1 6379 #quorum 1/1 2989:X 05 Jun 20:17:22.463 # +sdown slave 127.0.0.1:6379 127.0.0.1 6379 @ taotaoMaster 127.0.0.1 6381 发现6379已经宕机
1.1K20发布于 2021-08-02
来自专栏FreeBuf
苹果“天气”宕机
苹果天气短暂“宕机”一事影响范围甚广，包括 iOS、watchOS 和 macOS 在内多个 Apple 平台上的天气应用受到影响，不仅国内用户无法在天气应用中查看选定地区的实时天气预报，全球多个地区的用户同样如此对于苹果天气短暂“宕机”一事，苹果客服回应称没有接到相关反馈，请尝试对设备进行重启或将系统更新至最新版本。精彩推荐
70420编辑于 2023-04-06
来自专栏FreeBuf
ChatGPT 全球宕机 12 小时
美国时间 3 月 20 日，大量用户爆料 ChatGPT 出现宕机，当登录账户时，网站弹出报错警告，无法正常使用。值得一提的是，即使有特权的Plus账户也未能幸免。鉴于目前 ChatGPT 的火爆程度，宕机消息一出，迅速引爆国内外媒体，一时间，#ChatGPT崩了#、#chatgptdown#等热门话题刷屏社交媒体。宕机事件爆出几个小时后，OpenAI 团队开始组织专家抢修，最终官方花了快 5 个小时才解决了这一事故，此时距离 ChatGPT 大规模宕机已经过去12个多小时。 ChatGPT 问世以来多次宕机 2 月 7 日晚间，媒体披露 ChatGPT 因访问量激增而宕机。多位用户尝试使用不同浏览器访问ChatGPT，但都登陆不上，且收到“满负荷运转”的弹窗提示。对于宕机原因，业内多位技术专家指出，ChatGPT 自问世以来，持续火爆，除老用户外，新用户注册量每天都处于“高位”。不仅如此，大量类似于微信小程序的外挂链接也在高频访问，出现宕机并不意外。
1.3K70编辑于 2023-03-29
来自专栏why技术
哦豁，宕机了...
互联网技术发展到了 2022 年，理论上来说是可以做到“永不宕机”的。但过去的 2021 年，宕机事故看起来一点也没有减少。 1国内宕机事件：交待清楚故障原因也是一种能力 B 站崩溃，让年轻人无心睡觉 7 月 13 日晚间，视频网站哔哩哔哩（B 站）出现服务器宕机事故，无法登陆的用户涌向其它站点，连锁导致了一系列宕机事故。这次宕机本来并未引起证券行业之外的关注，但是随后富途创始人李华（叶子哥）的文章却让这次宕机事件火出了圈。，此次宕机长达近 7 个小时，刷新了 Facebook 自 2008 年以来的最长宕机时长。 AWS 一个月内发生 3 次宕机在 2021 年的最后一个月，AWS 发生了 3 次宕机。
1.7K60编辑于 2022-02-17
来自专栏bisal的个人杂货铺
Facebook宕机的经验
社交大佬Facebook最近有点烦，因为在美国当地时间4日清晨，有用户反映，再也无法刷新Facebook诸多社交网站，涉及到全球数十个国家和地区的用户，直到宕机近7个小时后，美国当地时间下午三点，Facebook 当地时间5日，Facebook表示4号一度出现大范围宕机故障的原因，是工程师错误地发出了一条指令，导致了错误的配置更改，切断了FB的数据中心在全球范围内的所有网络连接，但是目前没有证据表明用户数据因宕机而被泄露
1.1K40发布于 2021-10-12
hadoop宕机恢复流程
Hadoop集群宕机恢复流程一、NameNode宕机恢复 ‌确认故障状态‌ 检查日志(/var/log/hadoop)确认NameNode进程是否异常终止验证Active NameNode是否无法响应 locations > fsck_report.txt # 生成块分布报告 hdfs dfsadmin -metasave metasave.log # 保存元数据镜像备份 DataNode宕机恢复 yarn rmadmin -transitionToActive --forcemanual rm2 # YARN资源管理器切换故障原因通常有： 1）如果MR造成系统宕机。调整参数：yarn.scheduler.maximum-allocation-mb（单个任务可申请的最多物理内存量，默认是8192MB） 2）如果写入文件过快造成NameNode宕机。那么调高Kafka的存储大小，控制从Kafka到HDFS的写入速度。例如，可以调整Flume每批次拉取数据量的大小参数batchsize。
26010编辑于 2025-12-23
来自专栏CNCF
Kubernetes 零宕机滚动更新
但是 Kubernetes Ingress 连接到实例的方式稍有不同，这就是为什么当客户端通过 Ingresss 连接到应用程序的时候，我们会在滚动更新过程中查看到不同的宕机行为。零宕机那么如何增强我们的应用程序以实现真正的零宕机迁移呢？首先，要实现这个目标的先决条件是我们的容器要正确处理终止信号，在 SIGTERM 信号上实现优雅关闭。
1.9K21发布于 2020-02-20
来自专栏AI科技大本营的专栏
Gmail全球大规模宕机
整理 | 非主流出品 | AI科技大本营（ID: rgznai100）今天（3 月 13 日），Google 的多项服务在全球范围内出现了不同程度的宕机，包括 Gmail、Google Drive、据悉，此次宕机涉及范围较广，对全球用户都造成了影响，包括美国、欧洲、亚洲、澳大利亚和南美洲等地区。
1.5K20发布于 2019-03-19
来自专栏全栈程序员必看
linux tomcat宕机自动启动脚本,tomcat宕机自动重启脚本「建议收藏」
TomcatID=(ps -ef |grep tomcat |grep -w ‘tomcat‘|grep -v ‘grep‘|awk ‘{print 2}‘)
7.9K30编辑于 2022-09-15
来自专栏全栈程序员必看
tomcat宕机解决方法
最近项目出现tomcat宕机的情况，即项目运行一段时间后tomcat就会停止运行，解决方法步骤如下：首先进入linux服务器，使用命令top进行查看，发现tomcat的cpu利用率很高，超过100% tomcat的启动文件（catalina.sh）中添加如下参数,加大永久带的内存 -XX:PermSize=256M -XX:MaxPermSize=512M 这样情况得到了缓解，但运行一段时间以后，又出现了宕机问题
78321编辑于 2022-09-19
来自专栏小林coding
宕机了，缓存数据没了。。。
第一个风险，执行写操作命令和记录日志是两个过程，那当 Redis 在还没来得及将命令写入到硬盘时，服务器发生宕机了，这个数据就会有丢失的风险。所以是不可避免会影响主进程的性能； No 策略的话，是交由操作系统来决定何时将 AOF 日志内容写回硬盘，相比于 Always 策略性能较好，但是操作系统写回硬盘的时机是不可预知的，如果 AOF 日志内容没有写回硬盘，一旦服务器宕机 Everysec 策略的话，是折中的一种方式，避免了 Always 策略的性能开销，也比 No 策略更能避免数据丢失，当然如果上一秒的写操作命令日志没有写回到硬盘，发生了宕机，这一秒内的数据自然也会丢失
1.6K30发布于 2021-07-07
来自专栏PostgreSQL研究与原理解析
PostgreSQL异常宕机重启时间超长
SYNC_FILE_RANGE_WRITE) close datadir_fsync_fname->fsync_fname_ext open pg_fsync->fsync close 4、总结异常宕机后重启
1.6K20发布于 2020-10-28

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Kafka宕机后不再高可用？探究Kafka高可用实现

服务器宕机了，Kafka 消息会丢失吗？

如何零宕机将本地 Kafka 集群迁移上云？

慌得一逼，Kafka宕机后不再高可用？吓死宝宝了

java检测tomcat宕机_Tomcat意外宕机分析

mysql宕机日记

AWS 再次宕机

【致远FAQ】致远OA宕机之Tomcat异常宕机

Redis宕机快速恢复

苹果“天气”宕机

ChatGPT 全球宕机 12 小时

哦豁，宕机了...

Facebook宕机的经验

hadoop宕机恢复流程

Kubernetes 零宕机滚动更新

Gmail全球大规模宕机

linux tomcat宕机自动启动脚本,tomcat宕机自动重启脚本「建议收藏」

tomcat宕机解决方法

宕机了，缓存数据没了。。。

PostgreSQL异常宕机重启时间超长

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Kafka宕机后不再高可用？探究Kafka高可用实现

服务器宕机了，Kafka 消息会丢失吗？

如何零宕机将本地 Kafka 集群迁移上云？

慌得一逼，Kafka宕机后不再高可用？吓死宝宝了

java检测tomcat宕机_Tomcat意外宕机分析

mysql宕机日记

AWS 再次宕机

【致远FAQ】致远OA宕机之Tomcat异常宕机

Redis宕机 快速恢复

苹果“天气”宕机

ChatGPT 全球宕机 12 小时

哦豁，宕机了...

Facebook宕机的经验

hadoop宕机恢复流程

Kubernetes 零宕机滚动更新

Gmail全球大规模宕机

linux tomcat宕机自动启动脚本,tomcat宕机自动重启脚本「建议收藏」

tomcat宕机解决方法

宕机了，缓存数据没了。。。

PostgreSQL异常宕机重启时间超长

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

Redis宕机快速恢复