搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏PostgreSQL研究与原理解析
PG复制和自动故障转移--2
PostgreSQL 复制和故障转移设置该设置由两台通过 LAN 连接的 CentOS 7 机器组成，其中安装了 PostgreSQL 版本 10.7。 postgres=# select * from abc; a | b ---+------- 1 | One 2 | Two 3 | Three (3 rows) PostgreSQL 手动故障转移步骤是什么使用 EDB Postgres Failover Manager (EFM) 可以轻松设置自动故障转移。 PostgreSQL 的 repmgr 另一个开源工具是 repmgr（复制管理器），它还管理 PostgreSQL 集群的复制和故障转移。正确配置后，repmgr 可以检测主服务器何时发生故障并执行自动故障转移： https://www.enterprisedb.com/postgres-tutorials/how-implement-repmgr-postgresql-automatic-failover
1.1K10编辑于 2022-04-28
来自专栏公众号：Lucifer三思而后行
Oracle 分布式事务 2pc 故障处理
⭐️ 常见错误以下是三种常见的分布式事务问题场景： dba_2pc视图中有数据，但分布式事务已经不存在分布式事务存在，但dba_2pc视图中没有数据事务和视图数据都有，但是执行commit force 大多数情况下，出现这种问题，Oracle 会由 Reco 进程进行自动修复，Oracle 数据库会在 dba_2pc_pending 和dba_2pc_neighbors 等多个视图中记录分布式事务相关的信息常用的 2pc_clean 命令如下： select 'rollback force '||''''||local_tran_id||''''||';' "RollBack" from dba _2pc_pending where state='prepared'; select 'exec dbms_transaction.purge_lost_db_entry('||''' '||local_tran_id||''''||');' "Purge" from dba_2pc_pending; select 'rollback force ''' || LOCAL_TRAN_ID
94630发布于 2021-09-10
来自专栏精益码农
（2）MongoDB副本集自动故障转移全流程原理
默认搭建的replica set均在主节点读写，辅助节点冗余部署，形成高可用和备份，具备自动故障转移的能力。在发生故障转移时，集群不能再执行写入操作；如果你在客户端配置了在辅助节点的读取首选项 read preference，则集群可继续提供读取能力。你的应用程序可用重试逻辑应对自动故障转移和后续的重选，从MongoDB3.6版本开始，MongoDB Driver可侦测主节点的失联，并执行一次重试操作。 replSetName mongodb://account:passward@mongodb0.example.com:27017,mongodb1.example.com:27017,mongodb2. replicaSet=rs0 OK，以上便是MongoDB副本集心跳保活、异步复制、自动故障转移的背景知识。留一个作业？
2.3K10发布于 2020-01-16
来自专栏爱可生开源社区
故障分析 | Greenplum Segment 故障处理
其中故障存在三种类别：Master故障、Segment故障、数据异常。之前我们已经聊过“Master故障”和“数据异常”的处理方式，今天将介绍Segment故障的处理方式。二、本地模拟故障环境：2.1、第一种情况：段故障。 :master:gpadmin-[WARNING]:-4 mirror segment(s) acting as primaries are not synchronized2.2、第二种情况：表空间故障 gpadmin-[INFO]:- data05 56001 Up Process error -- database process may be down三、故障分析及解决 13 | 2 | m | m | s | u | 56002 | data02 | data02 | /greenplum/gpdata
2.7K40编辑于 2023-02-02
来自专栏云云众生s
AI助手改变Kubernetes故障诊断的2种方式
译自 2 Ways AI Assistants Are Changing Kubernetes Troubleshooting，作者 Blair Rampling。这些环境通常会带来难以解决的挑战，这些挑战会违背经验、智慧或故障排除方面的直觉。然而，挑战不在于微调本身，而在于它无法模仿人类的故障排除方法。由此，该助手可以提供见解并推荐故障排除过程中的下一步。此助手通过在两个领域的最佳范围内运行来增强 Botkube 的通知、调查和故障排除工具。有关新错误通知的具体故障排除帮助，而无需参考运行手册或阅读文档。
58810编辑于 2024-04-10
来自专栏痴者工良
零基础写框架(2)：故障排查和日志基础
故障排查和日志 .NET 程序进行故障排查的方式有很多，笔者个人总结常用的有以下方式： IDE 调试、Visual Studio 中的诊断工具、性能探测器一般来说，使用 IDE 进行断点调试和诊断只适合在本地开发环境打印日志日志是程序进行故障排查最常用最不可缺少的一部分，也是最简单的故障排查方法。程序输出的日志可以为故障排查提供有用的信息，同时通过日志观察程序的运行状态，日志也可以记录审计信息供日后回溯查找。日志等级 Logging API 中，规定了 7 种日志等级，其定义如下： public enum LogLevel { Debug = 1, Verbose = 2, Information 自定义日志框架本节示例项目在 Demo2.MyLogger.Console 中。创建控制台项目后，添加 Microsoft.Extensions.Logging.Console 引用。 ", args: "error"); logger2.LogError(new Exception("报错了"), message: "Hello World!
55610编辑于 2024-06-06
来自专栏网络工程师笔记
排查光模块故障原因，少不了这2条命令！
光模块故障定位常用命令根据光模块的告警信息查找故障原因： display interface transceiver 查看光模块光功率是否正常 display interface transceiver verbose 根据光模块的告警信息查找故障原因执行命令display interface transceiver查看“Alarm information”下光模块是否有告警信息。 (m) :30(62.5um/125um OM1) 80(50um/125um OM2) (m) :30(62.5um/125um OM1) 80(50um/125um OM2) 如果发送功率低（Current TX Power < Default TX Power Low Threshold），说明该光模块发送信号不好或光模块本身故障，可能会导致对端接收功率低，而造成端口不UP
96210编辑于 2023-12-14
来自专栏FunTester
线上故障与故障测试
故障测试好处故障测试是预防线上故障的关键手段。线上故障的不可预测性：线上系统在运行过程中可能面临各种不可预见的故障，例如硬件故障、软件缺陷、网络波动或外部攻击。这些故障往往具有突发性和不可控性，可能对业务造成严重影响。故障测试的预防作用：通过故障测试，可以主动模拟各种可能的故障场景，验证系统在异常情况下的表现。故障测试为线上故障的应对提供数据支持。故障场景的模拟与分析：通过故障测试，可以积累大量关于系统在故障情况下的行为数据。这些数据可以帮助团队更好地理解系统的弱点，并为制定应急预案提供依据。实际故障的反馈作用：每一次线上故障的发生都为故障测试提供了真实的案例和反馈。通过分析故障原因，可以进一步完善故障测试的场景和方法。持续改进测试策略：线上故障的多样性和复杂性要求故障测试不断演进。线上故障与故障测试之间的关系可以概括为“预防与反馈”的循环。故障测试通过模拟故障场景，帮助预防和减少线上故障的发生；而线上故障则为故障测试提供了真实的案例和改进方向。
87610编辑于 2025-02-19
来自专栏爱可生开源社区
故障分析 | Greenplum 集群 standby 故障处理
2、Greenplum集群架构简单介绍图片1）库由Master Severs和Segment Severs组成。 2）Master Server：Greenplum数据库的Master是整个Greenplum数据库系统的入口，它接受连接和SQL查询并且把工作分布到Segment实例上。 auto postgres[gpadmin@standby01 ~]$ cd /greenplum/gpdata/master/[gpadmin@standby01 master]$ ll总用量 04、故障分析及解决 4.2、清除有故障的主机的（备库）配置信息：[gpadmin@master01 ~]$ gpinitstandby -r执行过程省略，但有个选项需要确认：Do you want to continue 5、额外补充：如果Greenplum集群中master节点故障，处理思路：1）先把standby提升为新master，确保集群第一时间可用，提供对外服务；2）修复旧master，并添加到集群中成为新standby
1.4K10编辑于 2022-12-07
来自专栏运维之路
事中故障处理（4）故障定位
故障恢复指恢复业务连续性的应急操作，很多故障是在不断尝试验证解决恢复的动作，所以故障恢复环节与故障定位环节有一定的交叠，或在这两个环节之间不断试错的循环，即故障恢复操作可能和故障诊断是同时，也可能是诊断之后或诊断之前 1.已知预案下的恢复三把斧在故障管理过程中，通常大部分故障有一些明确的故障恢复预案，比如基础设施、服务器、网络设备、网络线路，以及应用系统层中关于服务可用性等故障因素，以及基于历史故障经验积累的方案。为了提升切换效率，除了建立切换工具，还要定期进行切换演练，确保切换操作正确性、时效性、可靠性 2.启用架构高可用策略架构高可用性通常指系统架构通过专门的设计，从而减少停工时间，而保持其服务的高度可用性、数据完整性的故障恢复，这些故障恢复通常需要现场临时决断恢复。结束注：“3.4 事中处置”另外3个环节内容链接： 1.故障发现、故障响应 2.故障定位
2K31发布于 2021-10-08
来自专栏用户1175783的专栏
# 故障恢复
--------------+----------+--------------+------------------+-------------------+ # 创建slave节点 [mysqld2] auto_increment_offset = 2 auto_increment_increment = 2 log-slave-updates = true relay-log=mysql-relay relay-log=mysql-relay log-slave-updates = true [mysqld2] auto_increment_offset = 2 auto_increment_increment 多主多从虽然能增加mysql的连接数，但是数据会始终同步到一张表中，对插入速度并不会有任何提高，而且还会导致每次插入id都递增2而造成id不连续，浪费id空间。，在自动切换主从时有用 set global read_only=1; 1 # 故障恢复如果master宕机后恢复对新的master节点加全库只读锁，阻止所有写入操作，并计下master节点当前得
1.2K20发布于 2020-05-09
来自专栏爱可生开源社区
故障分析 | cassandra 集群数据故障转移
---一、前情提要：我们知道 cassandra 具有分区容错性和强一致性，但是当数据所在主机发生故障时，该主机对应的数据副本该何去何从呢？是否跟宿主机一样变得不可用呢？，每个数据中心的 owns 都是 300% ，符合三副本的设置；测试并查看集群中出现故障节点后的数据分布情况：94机器关闭服务，并移除集群：[cassandra@data02 ~]$ nodetool 94节点上了，故障节点上的数据已移动到其他节点上，因此可以看到，在 dc1 数据中心中，数据随机仍只分布在其中三个节点上，而 dc2 数据中心的数据将分布在了仅有的三个节点上，发生了数据转移；如果此时 dc2 数据中心还有节点继续故障，那么故障节点上的数据不可能再移动到其他节点上了，dc1 是不变的，owns 还是300% ，但是 dc2 的 owns都是100% ，没办法故障转移了，只能存在自身的数据了；此时重启所有主机，所有主机 Cassandra 服务都会开启，包括之前故障模拟的节点也会自启，那么此时就会达到了另一种效果：故障模拟节点后的状态，再添加到了集群中，那么此时数据又会进行了自动的分发。
1.9K20编辑于 2023-01-17
来自专栏精益码农
（2）MongoDB副本集自动故障转移原理（含客户端）
默认搭建的副本集均在主节点读写，辅助节点冗余部署，形成高可用和备份，具备自动故障转移能力。集群会因为各种事件触发选举主节点在集群中添加新节点初始化replica set集群执行人工运维命令（rs.stepDown() rs.reconfig()）维护集群辅助节点与主节点失联时间超过默认10s 自动故障转移说的是最后一种情况在发生故障转移时，集群不能再执行写入操作；若客户端配置在辅助节点读取（read preference），则集群可继续提供读取能力。你的应用程序可用重试逻辑应对自动故障转移和后续的重选。 mongodb://account:passward@mongodb0.example.com:27017,mongodb1.example.com:27017,mongodb2.example.com replicaSet=rs0 OK，以上便是MongoDB副本集心跳保活、异步复制、自动故障转移的背景知识。留一个作业？
2.4K10发布于 2020-04-15
来自专栏爱可生开源社区
故障分析 | Kubernetes 故障诊断流程
一、本文概述及主要术语 1.1 概述本文基于 Pod 、Service 和 Ingress 三大模块进行划分，对于 Kubernetes 日常可能出现的故障问题，提供了较为具体的排查步骤，并附上相关解决方法或参考文献二、故障诊断流程 2.1 Pods 模块检查以下流程若成功则继续往下进行，若失败则根据提示进行跳转。 limits.memory 0 2Gi pods 0 4 requests.cpu 0 1 requests.memory 0 1Gi 2. kubectl port-forward <pod-name> 8080:<pod-port> 3. 映射成功前往 2.2 。 2.3.5 检查能否在外网通过 Ingress 进行访问可从外网成功访问，故障排查结束。
1.7K20发布于 2021-11-11
来自专栏linux运维
硬件故障
2. 检查内存（RAM）内存故障可能导致系统崩溃、蓝屏或性能下降。使用内存测试工具使用内存测试工具（如 memtest86+）进行内存检测。检查外设外设故障可能导致系统不稳定或无法识别设备。检查USB设备断开所有USB设备，然后逐个重新连接，以排除故障设备。检查显卡如果使用独立显卡，确保显卡驱动程序已正确安装，并且显卡连接牢固。7. 进入BIOS/UEFI在启动时按下特定键（通常是 F2、F10 或 Del），进入BIOS/UEFI设置。检查硬件信息查看BIOS/UEFI中的硬件信息，确保所有硬件被正确识别。8. 替换故障部件如果确定某个部件故障，可以尝试更换该部件。更换内存条如果内存测试失败，更换内存条。更换硬盘如果硬盘检测到错误，更换硬盘。更换电源供应器如果电源供应器有问题，更换电源供应器。10. 送修将故障设备送至专业的维修中心进行检查和维修。
1.4K00编辑于 2025-02-03
来自专栏只喝牛奶的杀手
故障改进
当你解决故障的时候，一定要防止对方对问题提前下结论，如果对方局部的证明是能证明结论是正确的，那从全局来看呢？不要在二手信息上深入讨论，不要用二手信息作为重要依据。那从整体来看，需要怎么故障改进？第一，优化故障获知和故障定位的时间。从故障发生到我们知道的时间是否可以优化得更短？定位故障的时间是否可以更短？有哪些地方可以做到自动化？第二，优化故障的处理方式。故障处理时的判断和章法是否科学，是否正确？故障处理时的信息是否全透明？故障处理时人员是否安排得当？第三，优化开发过程中的问题。做个简短的总结：循序渐进的让故障定位时间变短，持续改善，不要出现好像又是人品的问题，莫名的日了狗，不存在的，归根结底是自己的基础理论修养不够。关于严谨程度，是工程师很重要的品质。
89620编辑于 2022-11-14
来自专栏爱可生开源社区
故障分析 | MySQL 无监听端口故障排查
擅长数据库故障处理。对数据库技术和 python 有着浓厚的兴趣。本文来源：原创投稿*爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。 ---前言最近解决了一个比较基础的问题故障，由于排查过程挺有意思，于是就以此为素材写出了本篇文章。故障现场防火墙什么的均正常但是无法被远程访问到。简单的使用客户端登录了一下。 ERROR 2003 (HY000): Can't connect to MySQL server on '127.0.0.1' (111)根据以往经验大脑中浮现了几个常见的排查此类故障手法1.排查进程存在 41.095500-00:00 0 [Note] [MY-010308] [Server] Skipping generation of RSA key pair through -- caching_sha2_ 解决方案因为配置 skip-grants-tables 引起无法远程连接 mysql 服务端的故障，解决方法也是非常的简单注释重启。
1.4K20编辑于 2022-09-08
来自专栏杨建荣的学习笔记
故障分析 | MySQL 无监听端口故障排查
擅长数据库故障处理。对数据库技术和 python 有着浓厚的兴趣。本文来源：原创投稿 *爱可生开源社区出品，原创内容未经授权不得随意使用，转载请联系小编并注明来源。 ---- 前言最近解决了一个比较基础的问题故障，由于排查过程挺有意思，于是就以此为素材写出了本篇文章。故障现场防火墙什么的均正常但是无法被远程访问到。简单的使用客户端登录了一下。 mysql/data/3308/mysqld.pid --user=mysql -- socket=/mysqldata/mysql/data/3308/mysqld.sock --port=3308 2. 41.095500-00:00 0 [Note] [MY-010308] [Server] Skipping generation of RSA key pair through -- caching_sha2_ 解决方案因为配置 skip-grants-tables 引起无法远程连接 mysql 服务端的故障，解决方法也是非常的简单注释重启。
2.8K30编辑于 2022-09-14
来自专栏kali blog
【故障处理】BusyBox 故障导致无法启动kali
由于异常关机，在Kali开机后会显示错误提升BusyBox u1.37.0 (Debian 1:1.37.0-4) built-in shell (ash)Enter help’for a list of built-in commands (initramfs) 等字样。如下图：
64110编辑于 2025-07-28
来自专栏SRE
故障治理：如何进行故障复盘
图片故障复盘的重要性无需多说，每一次故障都是宝贵的学习机会，本人接手故障复盘工作已经半年有余，从一开始的手足无措，慢慢变得游刃有余。三、故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告故障直接原因方（非最终认定的故障责任方）在故障发生后3个工作日内提交故障报告。如故障原因涉及多个部门，需跨部门共同协助撰写故障报告。复盘会议后，结合故障处理报告形成故障复盘报告定稿，发给所有故障干系人及相关领导。3.1.3 确定故障干系人复盘owner确定故障直接原因方、关联(受影响)方等与故障有关的干系人。 3.2 故障复盘关键流程步骤(包括但不限于)3.2.1 故障背景概述故障的背景要解释清楚本次故障的基本情况，即发生了什么故障，影响了什么业务(产品)等。四、故障改进及闭环故障复盘后由复盘owner(或其他)将故障信息（也就是故障报告里的内容）录入故障管理系统，系统将向故障改进措施负责人派单，整改负责人整改完成后在系统回单并提交整改完成的证明材料，由复盘
1.5K20编辑于 2023-09-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

PG复制和自动故障转移--2

Oracle 分布式事务 2pc 故障处理

（2）MongoDB副本集自动故障转移全流程原理

故障分析 | Greenplum Segment 故障处理

AI助手改变Kubernetes故障诊断的2种方式

零基础写框架(2)：故障排查和日志基础

排查光模块故障原因，少不了这2条命令！

线上故障与故障测试

故障分析 | Greenplum 集群 standby 故障处理

事中故障处理（4）故障定位

# 故障恢复

故障分析 | cassandra 集群数据故障转移

（2）MongoDB副本集自动故障转移原理（含客户端）

故障分析 | Kubernetes 故障诊断流程

硬件故障

故障改进

故障分析 | MySQL 无监听端口故障排查

故障分析 | MySQL 无监听端口故障排查

【故障处理】BusyBox 故障导致无法启动kali

故障治理：如何进行故障复盘

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

PG复制和自动故障转移--2

Oracle 分布式事务 2pc 故障处理

（2）MongoDB副本集自动故障转移 全流程原理

故障分析 | Greenplum Segment 故障处理

AI助手改变Kubernetes故障诊断的2种方式

零基础写框架(2)：故障排查和日志基础

排查光模块故障原因，少不了这2条命令！

线上故障与故障测试

故障分析 | Greenplum 集群 standby 故障处理

事中故障处理（4）故障定位

# 故障恢复

故障分析 | cassandra 集群数据故障转移

（2）MongoDB副本集自动故障转移原理（含客户端）

故障分析 | Kubernetes 故障诊断流程

硬件故障

故障改进

故障分析 | MySQL 无监听端口故障排查

故障分析 | MySQL 无监听端口故障排查

【故障处理】BusyBox 故障导致无法启动kali

故障治理：如何进行故障复盘

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

（2）MongoDB副本集自动故障转移全流程原理