首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据小冰

    死锁问题排查

    问题背景 最近有同事说平台的某个服务出现超时异常,让我帮忙看下原因。我进入平台后触发了该服务,并没有发现超时异常,那可能是在特定操作场景下会出现或者是一个非必现问题。 既然已知道异常服务,那可以从这里入手进行分析,又与同事沟通一番,确定了与该服务相关的一些后台模块,接下来重点排查这些模块。 下面是出现问题的参考日志,关键点已包含其中,因为原日志不方便展示。 排查方法 日志中出现了sync. 问题本质 上面问题的根因是死锁导致的,死锁也是计算机中常见出现的问题。 往往改动代码引发的死锁问题比较容易出现,像本文中出现的问题就是代码改动导致的,添加功能需求的时候关注点集中在了业务逻辑上,容易忽视锁的问题

    1.5K10编辑于 2022-08-15
  • 来自专栏dcmickey小站

    排查Maven问题

    排查Maven问题 mvn dependency:tree 三大技巧 第一板斧:找到传递依赖的鬼出在哪里? (这一步非常重要哦,经常项目组pom.xml是相同的,但是就是有些人可以运行,有些人不能运行,俗称人品问题,其实都是IDE的缓存造成的了 idea清除缓存,为了提高效率不建议采用reimport重新起开启项目的方式

    65620编辑于 2022-06-09
  • 来自专栏后端码事

    线上问题排查

    jmap -histo pid | sort -n -r -k 2 | head -10

    83510发布于 2020-09-10
  • 来自专栏OSChina

    线上问题排查

    1 查看当前系统的cpu,内存占用情况 [root@localhost ~]# top 2 平均加载时间 [root@localhost ~]# uptime 16:45:18 up 18 day

    94820发布于 2019-10-09
  • 来自专栏PHP开发者那些事

    redis问题排查

    当出现异常以后,可以从以下几个原因入手排查。 API或数据结构使用不合理 慢查询。命令slowlog get [n]。 1)使用了复杂读为O(n)的命令导致,如hgetall等。 CPU饱和的问题。 内存交换 网络问题

    53920发布于 2020-06-23
  • 来自专栏Pou光明

    手眼标定问题排查_圆网格数据排查

    经过昨天晚上的调试,发现了一个主要问题:使用圆网格标定板标定时,不能使用cornerSubPix()函数,否则寻找角点时,会导致图一的情况(裁剪为30万像素)。就找到能参考的程序,推进还是很快的。 下次把有问题的数据列下。 上面数据均未使用图片校准。 目前这个相机标定程序比较OK,至此棋盘格和圆网格两种标定板。有需要的同志可在公众号后台留言“改进的相机标定程序”。

    33510编辑于 2024-04-13
  • 来自专栏linux

    网络问题故障排查

    网络问题故障排查 一、服务器网络卡慢 参考文档https://cloud.tencent.com/document/product/213/14633 1、检查本地访问域名速度 https://itango.tencent.com nslookup 地址 5、使用MTR分析网络延迟及丢包 https://cloud.tencent.com/document/product/213/14638 二、CDN网络访问故障 CDN网络故障原因排查

    29710编辑于 2025-07-04
  • 来自专栏Windows技术交流

    windows update问题排查

    Get-WindowsUpdateLog执行报错的时候,可以拿日志C:\Windows\Logs\WindowsUpdate\ (压缩成.7z格式)到正常的系统使用Get-WindowsUpdateLog 加参数指定源和目标位置导出

    85310编辑于 2024-08-21
  • 来自专栏运维开发故事

    Docker EOF问题排查

    一、前言 问题排查过程,源码部分均由我的开发同事排查和记录;在征得其同意后,由我发表在此。 二、问题 某天接到客户反馈,pod的事件中出现大量的 warning event: Readiness probe failed: OCI runtime exec failed: exec failed 三、环境 特别说明:客户在负责运行业务的k8s节点上坚持开启了cpu-manager 组件 版本 k8s 1.14.x 四、排查 1、接到客户反馈后,检查该pod所在节点的kubelet日志,如下 经过排查,发现 runc exec 在运行期间会读取 container 的 state.json,并使用 json decode 时出现异常。 ? 此时排查 runc EOF 和 kubelet cpu-manager update container(默认每 10s 更新一次) 的时间,发现时间点刚好吻合,验证猜想。

    5.5K10发布于 2021-06-24
  • 来自专栏解Bug之路

    日常问题排查-调用超时日常问题排查-调用超时

    日常问题排查-调用超时 前言 日常Bug排查系列都是一些简单Bug排查,笔者将在这里介绍一些排查Bug的简单技巧,同时顺便积累素材^_^。 Bug现场 这次的Bug是大家喜闻乐见的调用超时。 开始排查 那么这5秒钟时间到底消失在哪里呢?有3个可能的点: 1)A日志打点到真正发出请求包 2)网络上 3)B真正接收请求包到B日志打点。 可是这又引入了一个新的问题,为什么一次Full GC能达到6s之巨。 为什么这么慢 观察监控,笔者发现Full GC有时候快有时候慢。翻出对应6s的那条gc监控日志。 所以看上去是概率上出现GC慢的问题。 另一个机房没出问题 这时候巧的是,业务开发向笔者反映,另一个机房的相同应用确不会出现此问题。捞了下对应日志,发现其class unloading只有0.9s左右。 另外, 对于一个偶发性的问题,我们应该通过监控等手段去寻找规律,这样就很容易找到突破点。

    1.5K30编辑于 2021-12-24
  • 来自专栏cywhat

    Java线上问题排查

    1、top 查看占用资源信息以及pid top 2、查看pid下绑定线程 top -Hp pid1(进程id) 3、拿到需要查询的线程pid,转换成16进制 printf '%x' pid2(线程id) ==> 6a4 #6a4为输出结果 4、通过jstack讲java信息输出到文本 jstack pid1(进程id) > t.txt 如果jstack报错,请查看 jstack不存在 5、在t.txt文件中查找6a4 vim t.txt /6a4 6、然后找到自己的collectorl业务代码层

    52110编辑于 2022-11-22
  • 来自专栏第三方工具

    线上问题排查方法

    线上问题排查方法 1 OOM问题 1.1 堆内存OOM 1.2 栈内存OOM 1.3 栈内存溢出 1.4 GC OOM 1.5 元空间OOM 2 CPU100%问题 3 接口超时问题 4 索引失效问题 link: ElasticSearch服务Java内存异常分析和排查解决 https://www.cnblogs.com/oktokeep/p/18205278 1.2 栈内存OOM 出现栈内存OOM问题的异常信息如下 这个时候需要排查服务的线程数量。 推荐使用线程池,可以减少线程的创建,有效控制服务中的线程数量。 如果生产环境中,出现了这个问题,可以排查一下递归调用是否正常,有可能出现了无限递归的情况。 如果MQ生产者没有批量发送消息,则需要排查MQ消费者的业务逻辑中,哪些地方出现了性能问题,需要做代码优化。

    53110编辑于 2024-11-29
  • 来自专栏伟大程序猿的诞生

    Android 混淆问题排查

    问题 近期在开发过程中,突然出现混淆后程序出现运行时异常,编译是正常的,不混淆也是正常的, 错误信息如下提示 12-07 14:10:27.056 10603-10603/? ZygoteInit.java:888) at com.android.internal.os.ZygoteInit.main(ZygoteInit.java:749) 思路 1、通过上面的错误信息首先会去排查 2、考虑到关闭混淆正常,开启混淆异常,那么就定位到时混淆的问题 3、既然是混淆问题那就查看混淆配置文件proguard-rules.pro,基本的配置都已经防混淆了 4、接下来的思路就是通过反编译来查看 BaseApplication到底出了啥额问题 过程 第一步 我们看到下面反编译的代码 ? 所以以后遇到混淆的问题就按照提示一步一步排查,一定要反编译文件来分析问题,不然无法定位原因。 还有第一次混淆后建议反编译查看一下包里面的代码,有没有需要混淆的核心代码被keep掉了。

    2.6K20发布于 2019-01-21
  • 【系统问题排查方法】

    常见系统问题排查方法 系统问题排查通常涉及多个层面,包括代码、数据库、网络、服务器等。以下是一些常见的排查方法: 日志分析:检查系统日志、应用日志、数据库日志等,查找异常信息或错误堆栈。 日志是排查问题的第一手资料,能够快速定位问题发生的具体位置。 数据库性能问题往往是系统瓶颈之一。 网络排查:使用ping、traceroute、netstat等工具检查网络连接是否正常,排查网络延迟或丢包问题排查步骤: 检查数据库连接池配置,发现最大连接数设置过低,无法应对大促期间的高并发请求。通过调整连接池配置,增加最大连接数,问题得到缓解。 总结 系统问题排查需要结合日志分析、性能监控、代码审查等多种手段,针对不同的问题场景采取相应的解决方案。通过案例分析,可以更好地理解问题排查的思路和方法,提升系统稳定性和性能。

    45110编辑于 2025-08-29
  • 来自专栏Java架构师必看

    JVM 问题排查工具

    真实生产环境&预发的排查问题大杀器。 部分功能和btrace重合):sc -df xxx:输出当前类的详情,包括源码位置和classloader结构;trace class method: 打印出当前方法调用的耗时情况,细分到每个方法, 对排查方法性能时很有帮助 更多请参考:官网 【6】JProfiler:之前判断许多问题要通过JProfiler,但是现在Greys和btrace基本都能搞定了。 再加上出问题的基本上都是生产环境(网络隔离),所以基本不怎么使用了,但是还是要标记一下。

    78220发布于 2021-05-14
  • 来自专栏小白debug

    502问题怎么排查

    反过来,如果是服务器有问题,就返回5xx状态码。 4xx和5xx的区别 但问题就来了。 服务端都有问题了,搞严重点,服务器可能直接就崩溃了,那它还怎么给你返回状态码? 这种情况几乎都是程序有代码逻辑问题,崩溃一般也会留下代码堆栈,可以根据堆栈报错去排查问题,修复之后就好了。比如下面这张图是golang的报错堆栈信息,其他语言的也类似。 实例已经销毁但配置没删IP 要排查这种问题也不难。 这个时候,你可以看下nginx侧是否有打印相关的日志,看下转发的IP端口是否符合预期。 如果发现502,优先通过监控排查服务端应用是否发生过崩溃重启,如果是的话,再看下是否留下过崩溃堆栈日志,如果没有日志,看下是否可能是oom或者是其他原因导致进程主动退出。 如果进程也没崩溃过,去排查下nginx的日志,看下是否将请求打到了某个不知名IP端口上。 ---- 最后 最近原创更文的阅读量稳步下跌,思前想后,夜里辗转反侧。 我有个不成熟的请求。

    2.2K20编辑于 2022-12-02
  • 来自专栏苏三说技术

    线上问题排查指南

    前言 最近经常有小伙伴问我,遇到了线上问题要如何快速排查。 这非常考验工作经验了。 有些问题你以前遇到,如果再遇到类似的问题,就能很快排查出导致问题的原因。 但如果某个问题你是第一次遇到,心中可能会有点无从下手的感觉。 这篇文章总结了,我之前遇到过的一些线上问题排查思路,希望对你会有所帮助。 那么,这种问题,我们该如何排查呢? 8.1 返回401 一般生产环境出现这个问题,是由于没有通过接口的登录认证。 还有一种可能也会导致请求接口报404的问题,接口地址之前注册到了API网关中,但API网关的配置出现了问题。 优先排查接口url是否修改,然后排查网关或者Nginx配置是否有问题。 我们只能查看接口的错误日志,来定位和排查问题。 建议出现异常时,把接口请求参数打印出来,方便后面复现问题。 导致这种问题的原因有很多,我们只能根据服务器上的错误日志,和相关的业务代码逐一排查

    74510编辑于 2024-08-14
  • 来自专栏k-cloud-labs

    docker hang问题排查

    2.重启kubelet变更宿主状态 kubelet重启后宿主状态从Ready变为NotReady,这个问题相较docker hang死而言,没有那么复杂,所以我们先排查这个问题。 以往针对docker 1.13.1版本的排查都发现了一些线索,但是并没有定位到根因,最终绝大多数也是通过重启docker解决。 因此单纯依赖协程调用链路定位问题这条路被堵死了。 截至目前,我们已经收集了部分关键信息,同时也将问题排查范围更进一步地缩小在containerd-shim与runc之间。 接下来我们换一种思路继续排查。 3.2 进程排查 当组件的运行状态无法继续获取时,我们转换一下思维,获取容器的运行状态,也即异常容器此时的进程状态。 后续 docker hang死的原因远非这一种,本次排查的结果也并非适用于所有场景。希望各位看官能够根据自己的现场排查问题

    1.8K50编辑于 2023-03-06
  • 来自专栏运维小白

    1.8 网络问题排查

    1.8 网络问题排查 在NAT模式下变成为桥接模式(右下角,网络适配器) 桥接模式下的方框,不用去选择,打钩。

    92460发布于 2018-02-06
  • 来自专栏一直在努力的Java菜鸡er

    线上问题排查总结

    线上问题排查总结 Cpu飙高可能的原因 CAS自旋 没有控制自旋次数;乐观锁 死循环----cpu飙高的问题;控制循环次数 云服务器redis被注入挖矿程序;端口像公网暴露;Redis端口不要被外网访问 } },"晓果冻").start(); } } 指定线程名称 创建新的线程的时候最好指定它的名称不然默认的都是Thread-0、Thread-1这样的,指定名称,在排查问题时也方便在直接在项目 中搜索是哪段代码出了问题。 Linux环境下排查cpu飙高的问题 先模拟一种死锁的情况,让cpu飙高 /** * @author 晓果冻 * @version 1.0 * @date 2021/6/23 7:45 */ public 进程号改变是因为我又重启了程序 通过打印出的信息可以在代码中搜索晓果冻线程名来查询到底是哪段代码出了问题

    43330编辑于 2022-09-08
领券