首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏MyBlog-Karos

    记录一次个人服务器的运维事故

    这台服务器用了好几年了,阿里云轻量2h2g(没错,就是这样)。先来给大家看看这次的服务器监控吧。在之前的几个小时,大家也可以看到负载基本满载,处理之后舒服了。 先来说说具体的事故发生:前景:最近个人在做一款AI应用,其中支付服务我用的node+express+mongodb实现,部署到了这台服务器上(穷鬼只有这一台),正式因为我这台机子比较小,所以我选择以一种新的方式来做 事故发生事情从8.5凌晨发生,当时醒来,服务器突然进不去了,但是服务器(阿里云)账号登录权限在同学那(我和同学之前就为了卡个学生优惠,我的号在大学之前就弄过了qwq),总不可能半夜把别人叫醒吧,中间好几次成功进去了 事故分析进入Shell直接top/ps一套,然后发现,怎么一大堆php进程占用很高。这个图是解决之后的了,当时看的时候整整一页都是php-fpm,既然要解决问题,那么肯定是要找问题的引发原因。 事故解决所以我就一刀切killall -9 php-fpm # 或者pkill php-fpm直接全部kill,然后手动重启php服务即可。

    37912编辑于 2024-08-10
  • 来自专栏后端架构师

    误用Redis命令导致服务器挂了,领导让我写事故报告

    大家肯定用过Redis,也知道Redis的命令以及用法,但是假如在某些场景下,误用了一些命令,后果会非常严重,所以要坚决杜绝这样的事情发生,由于我自己之前误用过,所以事故报告它来了! 前言 我相信大家都猜到了这个导致服务器挂的命令是什么,没错,他就是 “keys” 命令。 由于业务需要,会定时更新一批缓存的数据,但是一个个获取key效率低下,所以就想到了批量获取的思路,然后就使用了keys命令,在本地或者测试环境下,由于缓存中key的数量并不是那么多,所以没有出现缓存挂或者服务器宕机的情况 ,但是随着历史数据的增加和业务的增长,缓存中的key越来越多,达到了几百万甚至上千万,所以使用keys命令的时候,查询出来的符合查询规则的数据量也非常大,导致服务器阻塞,随后宕机! 这意味着命令每次被调用都需要使用上一次这个调用返回的游标作为该次调用的游标参数,以此来延续之前的迭代过程 当SCAN命令的游标参数被设置为 0 时, 服务器将开始一次新的迭代, 而当服务器向用户返回值为

    85320发布于 2021-01-13
  • 来自专栏大数据文摘

    如何在踩踏事故中幸存,如何避免踩踏事故发生?

    踩踏,是一种极其原始的事故。每年东非大迁徙的过程中都有很多食草动物死于同类的蹄子之下。而人群的踩踏事故更是在史书上画下一个又一个血点。人类是天性爱群居的动物,人群就像磁铁一样对个人有着强大的吸引力。 世俗和宗教节日、体育比赛、音乐会、逃难、赶地铁、学校下课,这些都可能成为踩踏事故的发生条件。 实际上在踩踏事故中,遇难者大多并不是真的死于踩踏,他们的死因更多的是挤压性窒息——人的胸腔被挤压的没有空间扩张。在最极端的踩踏事故中,人在遇难时甚至可以保持站立的姿态。 如何在踩踏事故中脱身 任何时候去人流密集的地方,都应当观察周围,记住出口的位置,提前在大脑中规划撤离方案。 如何避免踩踏事故 然而,在踩踏事故发生现场,个人的力量实在太渺小了。不被踩踏的最有效办法就是避免踩踏事故发生。 对于个人而言,最重要的是不凑热闹。

    91640发布于 2018-05-23
  • 来自专栏码农桃花源

    “���”引发的线上事故

    最近遇到了一起依赖升级 + 异常数据引发的线上事故,教训惨痛,本文对此进行回故和总结。 同志们,关键时刻,完善的报警能给事故的处理和恢复赢得时间啊! By case 排查,发现服务 shard3 集群的机器报 i/o timeout 错误。 先止损,将事故影响降到最低,事后再来追查根因,总结复盘。 于是开始操作回滚, reset 到周四上线之前的一个 commit,重新打包,上线 shard3 集群。

    1.2K10发布于 2020-04-28
  • 来自专栏量子位

    大货车事故频发,智能物流可减少19.9%事故

    这套系统最终使事故率下降19.9%,千公里风险次数下降49.3%。 平均每天能把一个司机从死亡线上拯救回来。 提供这一整套技术的是一家叫G7的技术公司,死磕物流十几年。

    76030发布于 2021-08-12
  • 来自专栏重归混沌

    一次git事故

    而这次事故正是git patch功能使用不当引起的,下面来模拟出一个完整的事故现场。 在最开始我们有一段原始代码如下,可以明显看到,在第18行代码中,将dst错打成了src。 以上基本就是整个事故的全部还原过程。 这种事故很难发现,一旦发现却很容易就知道原因。 分析一下patch文件,就会立即发现,整个patch行为是靠以下7行代码来定位的。 从这个事故中,可以得到几点启示。 patch并不是100%可靠的,执行之后最好查看一下结果 2. 大扩号另起一行,对版本管理工具不友好:D 3.

    44020发布于 2020-04-26
  • 谁为AI事故负责?

    近年来,给他人权益造成损害的AI事故快速增加,从自动驾驶汽车和有形机器人的安全事故到AI诊疗软件的错误诊断再到各种自动化决策系统的算法歧视、不公平决策,可以说,AI事故和AI侵权正日益成为AI社会的“新常态 根据OCED对全球范围内的AI事故的监测,2014年1月以来全球AI事故快速增加,截至2023年12月总数已达7195起。 在人工智能的应用无处不在的今天,人们必须正视AI事故和AI侵权的法律责任问题。当AI系统造成事故和损害,法律必须给受害人提供公平且有效的救济。但问题是,谁应为AI事故和AI侵权负责? 在过去,无过错赔偿机制完全取代侵权损害赔偿的例子并不鲜见,工伤、交通事故、医疗伤害、疫苗损害等领域存在类似的做法。 当AI系统引发事故、造成损害时,如何对AI系统的“行为”或表现进行评价,是一个关键的问题。

    54210编辑于 2024-12-17
  • 来自专栏量子位

    理想汽车事故,智能短板暴露

    近期,青岛理想ONE在晚间高速路、辅助驾驶状态,与右前方变道货车相撞,副驾亲属受伤,车身前部遭受挤压…… 其后,相关行车记录视频流出,围绕事故的争议也随之展开,主要有两点: 一,在此次事故中,理想ONE 理想称,本次事故经交管部门判定,大货车由于违规并线承担全部责任。 其次,车辆质量安全。 理想承认,此次事故中车主使用了理想ONE辅助驾驶系统。 而且此次事故前后,理想股价也未受影响,市值创下新高。 并且值得注意的是,蔚来和小鹏也都在涨,中国造车新势力整体都在被看好。 只不过这种看好基于长远,可能暂时还不会因为一两次事故而发生变化。 但事故背后暴露的短板,如果不能及时亡羊补牢,或许就会风气浮萍之末。 对于理想是这样,对于智能汽车们,也是这样。 你说呢?你怎么看理想ONE这次事故和回应?

    69730编辑于 2023-03-10
  • 来自专栏冰河技术

    放假第二天的重大事故:忘记服务器root密码了!

    大家好,我是冰河~~ 今天一名读者紧急求助:忘记了服务器的root密码。 事件背景 事情是这样的,今天早上6点多一名读者在微信紧急求助:说是自己忘记了服务器的root密码,问我能不能帮忙解决下。 处理问题的经过 「注意:本文处理事件的经过并不是在这名读者服务器上操作的真实经历,而是事后我在自己虚拟机上还原的经过。」 总体处理的步骤如下所示。 (1)启动CentOS服务器,在开机第一个界面出现后马上按键盘E。 (2)进入这个界面继续按键盘E。 (3)选择第二个后继续按键盘E。 (4)进入这个界面后,输入一个空格,一个数字1。 总结 各位小伙伴们一定要记录好日常工作中的重要信息,尤其是工作中需要用到的账号等信息,这次服务器的root密码忘记了还能补救,如果是其他的一些重要信息遗失了,就很有可能找不回来了。

    75720编辑于 2022-06-15
  • 来自专栏数据派THU

    Science:84万起事故统计显示,公路上“此处事故多发”警示牌会导致更多交通事故

    来源:大数据文摘本文约1300字,建议阅读5分钟这种警示牌不仅不会让交通事故的数量降低,反而会提高。 开车的时候,我们经常看到“事故多发”的警示牌。 论文地址: https://www.science.org/doi/10.1126/science.abm3427 80多万起事故分析表示,有警示牌反而事故发生率提升1.35% 这种交通警示牌在美国很多州都有设立 德克萨斯州每年的交通事故死亡人数一直居全国之首,该州于2012年采用了这些警示牌。 美国的警示牌更多的像这种LED显示屏,上面标注了从公路建造以来因为交通事故死亡的人数。 他们将死亡统计数据显示的那几周内发生的事故与当月其余时间发生的事故进行了比较,并且只比较了发生在同一时间和同一天的事故。 他们还控制了天气和假期,这可以独立影响事故的数量。 在论文中,研究人员展示了“反常识”的结果:在对844,939起事故的分析表明,在这些标志的下行10公里处,当这些死亡数字显示时,撞车事故增加了1.35% 。

    34420编辑于 2022-05-05
  • 来自专栏让技术和时代并行

    故障总结|从事故中学习

    在日常事故中,发现很多开发人员写故障总结就是走个过场,不清不楚,还会漏掉一些实际问题。 其实一份好的事故总结能够加强自身对错误的反思和解决,并且能够帮助团队内其他人避免类似错误重犯,降低犯错几率,从而保障服务稳定性。 分享一份我在工作过程中经常使用的事故总结模版,以加快事故总结效率。 事项 内容 概述 一个到两个简短的句子,总结促成因素、时间线摘要和影响。 500电话告警 11:47 发现数据库CPU飙升 ….. ….监控数据走势图 12:00 10倍扩容,问题得到暂时解决 专业术语 对于没有接触过该系统,但是故障中出现的专业术语描述 事后学习 此次事故中哪些事情处理的值得称赞

    40510编辑于 2023-03-18
  • 来自专栏【腾讯云开发者】

    中台的故事与事故

    2015年左右底,“中台”这个词 迅速在互联网走红,众多互联网大厂纷纷投入到“中台”的战略布局中,转眼间,到了2024年,曾经风靡一时的中台迎来了退潮时刻。这期间发生过什么有趣的故事,这背后的原因又是什么?本文将阐述我对于中台建设的一些思考和浅见,希望可以引发技术人的思考。

    63610编辑于 2024-07-24
  • 来自专栏大数据文摘

    Science:84万起事故统计显示,公路上“此处事故多发”警示牌会导致更多交通事故

    大数据文摘出品 开车的时候,我们经常看到“事故多发”的警示牌。 有的警示牌甚至会“贴心”地标注这个地方曾经发生过的严重事故,导致多少人死亡。 论文地址: https://www.science.org/doi/10.1126/science.abm3427 80多万起事故分析表示,有警示牌反而事故发生率提升1.35% 这种交通警示牌在美国很多州都有设立 德克萨斯州每年的交通事故死亡人数一直居全国之首,该州于2012年采用了这些警示牌。 美国的警示牌更多的像这种LED显示屏,上面标注了从公路建造以来因为交通事故死亡的人数。 他们将死亡统计数据显示的那几周内发生的事故与当月其余时间发生的事故进行了比较,并且只比较了发生在同一时间和同一天的事故。 他们还控制了天气和假期,这可以独立影响事故的数量。 在论文中,研究人员展示了“反常识”的结果:在对844,939起事故的分析表明,在这些标志的下行10公里处,当这些死亡数字显示时,撞车事故增加了1.35% 。

    52220编辑于 2022-04-28
  • 来自专栏不一样的科技宅

    Insert into select语句引发的生产事故

    事故发生的经过。   由于数据数据库中order_today数据量过大,当时好像有700W了并且每天在以30W的速度增加。 事故还原   在本地建立一个精简版的数据库,并生成了100w的数据。模拟线上发生的情况。

    2.6K11发布于 2020-07-07
  • 来自专栏程序猿DD

    713 事故之后,B站又崩了...

    B 站上一次大规模崩溃是 2021 年 7 月 13 日,被成为「713 事故」,曾被反复拉出来“鞭尸”。 B 站技术团队在 2022 年 7 月 12 日,针对「713 事故」发了一篇技术解析的长文:2021.07.13 我们是这样崩的 2021 年 7 月 13 日 22:52,SRE 收到大量服务和域名的接入层不可用报警

    94210编辑于 2023-04-04
  • 来自专栏生信修炼手册

    ChAMP R包安装中的事故

    ChAMP 包提供了完整的分析illumina甲基化芯片的pipeline, 和普通的Bioconductor 包的安装一样,代码只有简单的两行

    2.8K20发布于 2020-05-11
  • 来自专栏技术趋势

    xx=page++差点导致线上事故

    pageIndex; 正常 比如:pageIndex=1; pageIndex = pageIndex++ ; 结果为1 pageIndex = ++pageIndex; 结果为2 该问题差点引起了线上事故

    43360发布于 2020-09-18
  • 来自专栏编程大道

    Redis bigkey导致生产事故

    一个Redis生产事故的复盘,整理这篇文章分享给大家。本期文章分析Redis中的bigkey相关问题,主要从以下几个点入手: 什么是bigkey? 危害是什么? 怎么产生的? 这就是造成生产事故的罪魁祸首!导致Redis间歇性卡死、影响线上正常下单! 4.网络拥塞 每次获取bigkey产生的网络流量较大,假设一个bigkey为1MB,每秒访问量为1000,那么每秒产生1000MB的流量,对于普通的千兆网卡(按照字节算是128MB/s)的服务器来说简直是灭顶之灾 ,而且一般服务器会采用单机多实例的方式来部署,也就是说一个bigkey可能会对其他实例造成影响,其后果不堪设想。 删除时间测试 下面测试和服务器硬件、Redis版本比较相关,可能在不同的服务器上执行速度不太相同,但是能提供一定的参考价值 1.字符串类删除测试 下表展示了删除512KB~10MB的字符串类型数据所花费的时间

    56020编辑于 2022-05-17
  • 来自专栏悟空聊架构 | 公众号

    深入排查 MySQL 高可用的事故

    详情可以看悟空写的这篇:实战 MySQL 高可用架构 这次是我们在项目中遇到的一次事故,来一起复盘下吧。 本文目录如下: 事故现场 环境:测试环境 时间:上午10:30 反馈人员:测试群,炸锅了,研发同事初步排查后,发现可能是数据库问题。 然后就开始找原因吧。 ② 那就到服务器上看下 MySQL 容器的状态吧。 到 MySQL 的两台服务器上,先看下 MySQL 容器的状态,docker ps 命令,发现两台 MySQL 容器都不在列表中,这代表容器没正常运行。 mkdir log chmod 777 log -R 复制 ⑩ 两台服务器上都有这个 log 目录后,Keepalived 也帮我们自动重启好了 MySQL 容器,再来访问下其中一个节点 node56

    58831编辑于 2023-09-16
  • 来自专栏SpringBoot教程

    由Long类型引发的生产事故

    今天测试忽然在群里发了一个看似非常简单的线上问题,具体是:在后台通过订单编号(orderId)修改订单信息时,修改不成功 ,修改前后的订单数据完全没有发生变化。第一眼看到这个问题的时候,我心想后台实现逻辑并不就是一个updateById更新订单表的操作(简化了其他业务逻辑)吗?难道订单编号(orderId)在代码里给属性赋值赋错了,心想这么低级的错误“同事”应该不会犯吧,于是我就打开ide先去看了看对应方法的处理逻辑,整体更新操作 属性之间的赋值没有问题,难道又是一个”灵异事件“?说罢 我便想着在测试环境能不能复现一下这个bug,功能上线前功能肯定是测试通过的,于是我在测试环境点啊点,在页面上模拟了几十次更新操作也没有发现问题。

    53030编辑于 2023-08-31
领券