首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏PostgreSQL研究与原理解析

    PG复制和自动故障转移--2

    PostgreSQL 复制和故障转移设置 该设置由两台通过 LAN 连接的 CentOS 7 机器组成,其中安装了 PostgreSQL 版本 10.7。 postgres=# select * from abc; a | b ---+------- 1 | One 2 | Two 3 | Three (3 rows) PostgreSQL 手动故障转移步骤是什么 使用 EDB Postgres Failover Manager (EFM) 可以轻松设置自动故障转移。 PostgreSQL 的 repmgr 另一个开源工具是 repmgr(复制管理器),它还管理 PostgreSQL 集群的复制和故障转移。 正确配置后,repmgr 可以检测主服务器何时发生故障并执行自动故障转移: https://www.enterprisedb.com/postgres-tutorials/how-implement-repmgr-postgresql-automatic-failover

    1K10编辑于 2022-04-28
  • 来自专栏公众号:Lucifer三思而后行

    Oracle 分布式事务 2pc 故障处理

    ⭐️ 常见错误 以下是三种常见的分布式事务问题场景: dba_2pc视图中有数据,但分布式事务已经不存在 分布式事务存在,但dba_2pc视图中没有数据 事务和视图数据都有,但是执行commit force 大多数情况下,出现这种问题,Oracle 会由 Reco 进程进行自动修复,Oracle 数据库会在 dba_2pc_pending 和dba_2pc_neighbors 等多个视图中记录分布式事务相关的信息 常用的 2pc_clean 命令如下: select 'rollback force '||''''||local_tran_id||''''||';' "RollBack" from dba _2pc_pending where state='prepared'; select 'exec dbms_transaction.purge_lost_db_entry('||''' '||local_tran_id||''''||');' "Purge" from dba_2pc_pending; select 'rollback force ''' || LOCAL_TRAN_ID

    89630发布于 2021-09-10
  • 来自专栏精益码农

    2)MongoDB副本集自动故障转移 全流程原理

    默认搭建的replica set均在主节点读写,辅助节点冗余部署,形成高可用和备份, 具备自动故障转移的能力。 在发生故障转移时,集群不能再执行写入操作; 如果你在客户端配置了在辅助节点的读取首选项 read preference,则集群可继续提供读取能力。 你的应用程序可用重试逻辑应对自动故障转移和后续的重选,从MongoDB3.6版本开始,MongoDB Driver可侦测主节点的失联,并执行一次重试操作。 replSetName mongodb://account:passward@mongodb0.example.com:27017,mongodb1.example.com:27017,mongodb2. replicaSet=rs0 OK, 以上便是MongoDB副本集心跳保活、异步复制、自动故障转移的背景知识。 留一个作业?

    2.2K10发布于 2020-01-16
  • 来自专栏爱可生开源社区

    故障分析 | Greenplum Segment 故障处理

    其中故障存在三种类别:Master故障、Segment故障、数据异常。之前我们已经聊过“Master故障”和“数据异常”的处理方式,今天将介绍Segment故障的处理方式。 二、本地模拟故障环境:2.1、第一种情况:段故障。 :master:gpadmin-[WARNING]:-4 mirror segment(s) acting as primaries are not synchronized2.2、第二种情况:表空间故障 gpadmin-[INFO]:- data05 56001 Up Process error -- database process may be down三、故障分析及解决 13 | 2 | m | m | s | u | 56002 | data02 | data02 | /greenplum/gpdata

    2.6K40编辑于 2023-02-02
  • 来自专栏云云众生s

    AI助手改变Kubernetes故障诊断的2种方式

    译自 2 Ways AI Assistants Are Changing Kubernetes Troubleshooting,作者 Blair Rampling。 这些环境通常会带来难以解决的挑战,这些挑战会违背经验、智慧或故障排除方面的直觉。 然而,挑战不在于微调本身,而在于它无法模仿人类的故障排除方法。 由此,该助手可以提供见解并推荐故障排除过程中的下一步。 此助手通过在两个领域的最佳范围内运行来增强 Botkube 的通知、调查和故障排除工具。 有关新错误通知的具体故障排除帮助,而无需参考运行手册或阅读文档。

    54010编辑于 2024-04-10
  • 来自专栏FunTester

    线上故障故障测试

    故障测试好处 故障测试是预防线上故障的关键手段。线上故障的不可预测性:线上系统在运行过程中可能面临各种不可预见的故障,例如硬件故障、软件缺陷、网络波动或外部攻击。 这些故障往往具有突发性和不可控性,可能对业务造成严重影响。故障测试的预防作用:通过故障测试,可以主动模拟各种可能的故障场景,验证系统在异常情况下的表现。 故障测试为线上故障的应对提供数据支持。故障场景的模拟与分析:通过故障测试,可以积累大量关于系统在故障情况下的行为数据。这些数据可以帮助团队更好地理解系统的弱点,并为制定应急预案提供依据。 实际故障的反馈作用:每一次线上故障的发生都为故障测试提供了真实的案例和反馈。通过分析故障原因,可以进一步完善故障测试的场景和方法。持续改进测试策略:线上故障的多样性和复杂性要求故障测试不断演进。 线上故障故障测试之间的关系可以概括为“预防与反馈”的循环。故障测试通过模拟故障场景,帮助预防和减少线上故障的发生;而线上故障则为故障测试提供了真实的案例和改进方向。

    73110编辑于 2025-02-19
  • 来自专栏网络工程师笔记

    排查光模块故障原因,少不了这2条命令!

    光模块故障定位常用命令 根据光模块的告警信息查找故障原因: display interface transceiver 查看光模块光功率是否正常 display interface transceiver verbose 根据光模块的告警信息查找故障原因 执行命令display interface transceiver查看“Alarm information”下光模块是否有告警信息。 (m) :30(62.5um/125um OM1) 80(50um/125um OM2) (m) :30(62.5um/125um OM1) 80(50um/125um OM2) 如果发送功率低(Current TX Power < Default TX Power Low Threshold),说明该光模块发送信号不好或光模块本身故障,可能会导致对端接收功率低,而造成端口不UP

    88010编辑于 2023-12-14
  • 来自专栏痴者工良

    零基础写框架(2):故障排查和日志基础

    故障排查和日志 .NET 程序进行故障排查的方式有很多,笔者个人总结常用的有以下方式: IDE 调试、Visual Studio 中的诊断工具、性能探测器 一般来说,使用 IDE 进行断点调试和诊断只适合在本地开发环境 打印日志 日志是程序进行故障排查最常用最不可缺少的一部分,也是最简单的故障排查方法。程序输出的日志可以为故障排查提供有用的信息,同时通过日志观察程序的运行状态,日志也可以记录审计信息供日后回溯查找。 日志等级 Logging API 中,规定了 7 种日志等级,其定义如下: public enum LogLevel { Debug = 1, Verbose = 2, Information 自定义日志框架 本节示例项目在 Demo2.MyLogger.Console 中。 创建控制台项目后,添加 Microsoft.Extensions.Logging.Console 引用。 ", args: "error"); logger2.LogError(new Exception("报错了"), message: "Hello World!

    48210编辑于 2024-06-06
  • 来自专栏爱可生开源社区

    故障分析 | Greenplum 集群 standby 故障处理

    2、Greenplum集群架构简单介绍图片1)库由Master Severs和Segment Severs组成。 2)Master Server:Greenplum数据库的Master是整个Greenplum数据库系统的入口,它接受连接和SQL查询并且把工作分布到Segment实例上。 auto postgres[gpadmin@standby01 ~]$ cd /greenplum/gpdata/master/[gpadmin@standby01 master]$ ll总用量 04、故障分析及解决 4.2、清除有故障的主机的(备库)配置信息:[gpadmin@master01 ~]$ gpinitstandby -r执行过程省略,但有个选项需要确认:Do you want to continue 5、额外补充:如果Greenplum集群中master节点故障,处理思路:1)先把standby提升为新master,确保集群第一时间可用,提供对外服务;2)修复旧master,并添加到集群中成为新standby

    1.4K10编辑于 2022-12-07
  • 来自专栏运维之路

    事中故障处理(4)故障定位

    故障恢复指恢复业务连续性的应急操作,很多故障是在不断尝试验证解决恢复的动作,所以故障恢复环节与故障定位环节有一定的交叠,或在这两个环节之间不断试错的循环,即故障恢复操作可能和故障诊断是同时,也可能是诊断之后或诊断之前 1.已知预案下的恢复三把斧 在故障管理过程中,通常大部分故障有一些明确的故障恢复预案,比如基础设施、服务器、网络设备、网络线路,以及应用系统层中关于服务可用性等故障因素,以及基于历史故障经验积累的方案。 为了提升切换效率,除了建立切换工具,还要定期进行切换演练,确保切换操作正确性、时效性、可靠性 2.启用架构高可用策略 架构高可用性通常指系统架构通过专门的设计,从而减少停工时间,而保持其服务的高度可用性 、数据完整性的故障恢复,这些故障恢复通常需要现场临时决断恢复。 结束 注:“3.4 事中处置”另外3个环节内容链接: 1.故障发现、故障响应 2.故障定位

    2K31发布于 2021-10-08
  • 来自专栏用户1175783的专栏

    # 故障恢复

    --------------+----------+--------------+------------------+-------------------+ # 创建slave节点 [mysqld2] auto_increment_offset = 2 auto_increment_increment = 2 log-slave-updates = true relay-log=mysql-relay relay-log=mysql-relay log-slave-updates = true [mysqld2] auto_increment_offset = 2 auto_increment_increment 多主多从虽然能增加mysql的连接数,但是数据会始终同步到一张表中,对插入速度并不会有任何提高,而且还会导致每次插入id都递增2而造成id不连续,浪费id空间。 ,在自动切换主从时有用 set global read_only=1; 1 # 故障恢复 如果master宕机后恢复 对新的master节点加全库只读锁,阻止所有写入操作,并计下master节点当前得

    1.1K20发布于 2020-05-09
  • 来自专栏爱可生开源社区

    故障分析 | cassandra 集群数据故障转移

    ---一、前情提要:我们知道 cassandra 具有分区容错性和强一致性,但是当数据所在主机发生故障时,该主机对应的数据副本该何去何从呢?是否跟宿主机一样变得不可用呢? ,每个数据中心的 owns 都是 300% ,符合三副本的设置;测试并查看集群中出现故障节点后的数据分布情况:94机器关闭服务,并移除集群:[cassandra@data02 ~]$ nodetool 94节点上了,故障节点上的数据已移动到其他节点上,因此可以看到,在 dc1 数据中心中,数据随机仍只分布在其中三个节点上,而 dc2 数据中心的数据将分布在了仅有的三个节点上,发生了数据转移;如果此时 dc2 数据中心还有节点继续故障,那么故障节点上的数据不可能再移动到其他节点上了,dc1 是不变的,owns 还是300% ,但是 dc2 的 owns都是100% ,没办法故障转移了,只能存在自身的数据了 ;此时重启所有主机,所有主机 Cassandra 服务都会开启,包括之前故障模拟的节点也会自启,那么此时就会达到了另一种效果:故障模拟节点后的状态,再添加到了集群中,那么此时数据又会进行了自动的分发。

    1.9K20编辑于 2023-01-17
  • 来自专栏精益码农

    2)MongoDB副本集自动故障转移原理(含客户端)

    默认搭建的副本集均在主节点读写,辅助节点冗余部署,形成高可用和备份,具备自动故障转移能力。 集群会因为各种事件触发选举主节点 在集群中添加新节点 初始化replica set集群 执行人工运维命令(rs.stepDown() rs.reconfig())维护集群 辅助节点与主节点失联时间超过默认10s 自动故障转移说的是最后一种情况 在发生故障转移时,集群不能再执行写入操作;若客户端配置在辅助节点读取(read preference),则集群可继续提供读取能力。 你的应用程序可用重试逻辑应对自动故障转移和后续的重选。 mongodb://account:passward@mongodb0.example.com:27017,mongodb1.example.com:27017,mongodb2.example.com replicaSet=rs0 OK, 以上便是MongoDB副本集心跳保活、异步复制、自动故障转移的背景知识。 留一个作业?

    2.3K10发布于 2020-04-15
  • 来自专栏linux运维

    硬件故障

    2. 检查内存(RAM)内存故障可能导致系统崩溃、蓝屏或性能下降。使用内存测试工具使用内存测试工具(如 memtest86+)进行内存检测。 检查外设外设故障可能导致系统不稳定或无法识别设备。检查USB设备断开所有USB设备,然后逐个重新连接,以排除故障设备。检查显卡如果使用独立显卡,确保显卡驱动程序已正确安装,并且显卡连接牢固。7. 进入BIOS/UEFI在启动时按下特定键(通常是 F2、F10 或 Del),进入BIOS/UEFI设置。检查硬件信息查看BIOS/UEFI中的硬件信息,确保所有硬件被正确识别。8. 替换故障部件如果确定某个部件故障,可以尝试更换该部件。更换内存条如果内存测试失败,更换内存条。更换硬盘如果硬盘检测到错误,更换硬盘。更换电源供应器如果电源供应器有问题,更换电源供应器。10. 送修将故障设备送至专业的维修中心进行检查和维修。

    1.2K00编辑于 2025-02-03
  • 来自专栏爱可生开源社区

    故障分析 | Kubernetes 故障诊断流程

    一、本文概述及主要术语 1.1 概述 本文基于 Pod 、Service 和 Ingress 三大模块进行划分,对于 Kubernetes 日常可能出现的故障问题,提供了较为具体的排查步骤,并附上相关解决方法或参考文献 二、故障诊断流程 2.1 Pods 模块检查 以下流程若成功则继续往下进行,若失败则根据提示进行跳转。 limits.memory 0 2Gi pods 0 4 requests.cpu 0 1 requests.memory 0 1Gi 2. kubectl port-forward <pod-name> 8080:<pod-port> 3. 映射成功前往 2.2 。 2.3.5 检查能否在外网通过 Ingress 进行访问 可从外网成功访问,故障排查结束。

    1.7K20发布于 2021-11-11
  • 来自专栏只喝牛奶的杀手

    故障改进

    当你解决故障的时候,一定要防止对方对问题提前下结论,如果对方局部的证明是能证明结论是正确的,那从全局来看呢?不要在二手信息上深入讨论,不要用二手信息作为重要依据。 那从整体来看,需要怎么故障改进? 第一,优化故障获知和故障定位的时间。 从故障发生到我们知道的时间是否可以优化得更短? 定位故障的时间是否可以更短? 有哪些地方可以做到自动化? 第二,优化故障的处理方式。 故障处理时的判断和章法是否科学,是否正确? 故障处理时的信息是否全透明? 故障处理时人员是否安排得当? 第三,优化开发过程中的问题。 做个简短的总结:循序渐进的让故障定位时间变短,持续改善,不要出现好像又是人品的问题,莫名的日了狗,不存在的,归根结底是自己的基础理论修养不够。关于严谨程度,是工程师很重要的品质。

    85120编辑于 2022-11-14
  • 来自专栏kali blog

    故障处理】BusyBox 故障导致无法启动kali

    由于异常关机,在Kali开机后会显示错误提升BusyBox u1.37.0 (Debian 1:1.37.0-4) built-in shell (ash)Enter help’for a list of built-in commands (initramfs) 等字样。如下图:

    51710编辑于 2025-07-28
  • 来自专栏爱可生开源社区

    故障分析 | MySQL OOM 故障应如何下手

    log-file=/tmp/valgrind-mysql.log /usr/local/mysql/bin/mysqld --defaults-file=/etc/my.cnf --user=root 2. 2. 调整 oom_score_adj 参数(/proc/<pid>/oom_score_adj),将 MySQL 被 oom-killer 锁定的优先级降低。这个参数值越小,越不容易被锁定。 3.

    2.4K20发布于 2020-04-27
  • 来自专栏SRE

    故障治理:如何进行故障复盘

    图片故障复盘的重要性无需多说,每一次故障都是宝贵的学习机会,本人接手故障复盘工作已经半年有余,从一开始的手足无措,慢慢变得游刃有余。 三、故障复盘运作机制3.1 故障复盘前准备3.1.1 提交故障报告故障直接原因方(非最终认定的故障责任方)在故障发生后3个工作日内提交故障报告。如故障原因涉及多个部门,需跨部门共同协助撰写故障报告。 复盘会议后,结合故障处理报告形成故障复盘报告定稿,发给所有故障干系人及相关领导。3.1.3 确定故障干系人复盘owner确定故障直接原因方、关联(受影响)方等与故障有关的干系人。 3.2 故障复盘关键流程步骤(包括但不限于)3.2.1 故障背景概述故障的背景要解释清楚本次故障的基本情况,即发生了什么故障,影响了什么业务(产品)等。 四、故障改进及闭环故障复盘后由复盘owner(或其他)将故障信息(也就是故障报告里的内容)录入故障管理系统,系统将向故障改进措施负责人派单,整改负责人整改完成后在系统回单并提交整改完成的证明材料,由复盘

    1.4K20编辑于 2023-09-12
  • 来自专栏杨建荣的学习笔记

    故障分析 | MySQL 无监听端口故障排查

    擅长数据库故障处理。对数据库技术和 python 有着浓厚的兴趣。 本文来源:原创投稿 *爱可生开源社区出品,原创内容未经授权不得随意使用,转载请联系小编并注明来源。 ---- 前言 最近解决了一个比较基础的问题故障,由于排查过程挺有意思,于是就以此为素材写出了本篇文章。 故障现场 防火墙什么的均正常但是无法被远程访问到。简单的使用客户端登录了一下。 mysql/data/3308/mysqld.pid --user=mysql -- socket=/mysqldata/mysql/data/3308/mysqld.sock --port=3308 2. 41.095500-00:00 0 [Note] [MY-010308] [Server] Skipping generation of RSA key pair through -- caching_sha2_ 解决方案 因为配置 skip-grants-tables 引起无法远程连接 mysql 服务端的故障,解决方法也是非常的简单注释重启。

    2.7K30编辑于 2022-09-14
领券