首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏沈钦华的专栏

    python进程卡死排查

    近期在我们运维管控平台上执行python任务时,出现了卡死的现象。 幸好卡死进程还在,我们有现场可以对这个进程做进一步分析,定位此时python任务内部在做什么。 可以看到此时进程在接收数据。 recvfrom(5, 从fd 5接收数据那么我们进一步看下这个fd 5 到底是什么通过查看pid 4991打开的fd列表,可以看到fd 5是一个socket,对应inode 42019613603、 至此,大概知道的进程卡死的原因,但是要进一步定位这个接收数据对应python任务的具体哪个方法,以便来优化代码呢?

    2.4K10编辑于 2024-02-19
  • 来自专栏软件研发

    讲解torch 多进程卡死

    讲解torch 多进程卡死问题在使用PyTorch进行多进程训练时,有时会遇到程序卡死的问题。本文将介绍可能导致torch多进程卡死的原因以及如何解决这个问题。 可能的原因这个多进程卡死问题可能是由于以下原因引起的:数据加载问题:在多进程训练中,数据加载是一个重要的环节。如果数据加载出现问题,可能会导致卡死。例如,数据集的读取、解码或预处理过程中出现了问题。 数据共享问题:多进程训练中,不同的进程需要共享一些数据,如模型参数、缓存等。如果共享数据的方式不正确,可能导致多进程间的死锁,从而卡死程序。 资源竞争问题:多进程训练中,不同的进程需要竞争系统资源(如内存、GPU等)。如果资源的分配或管理不当,可能会导致进程间的竞争,从而导致卡死。 同时,也建议添加更详细的日志和调试打印输出,以便更好地定位卡死问题发生的代码位置。总结在使用torch进行多进程训练时,卡死问题可能会让我们很头疼。

    1.9K00编辑于 2023-12-10
  • 来自专栏散尽浮华

    事故记录-过多进程致使CPU卡死

    Disk I/O is overloaded on test-server 内容: CPU iowait time:value=68.7 % 原始事件ID: 30812 问题追踪 1)用top查看进程 ,发现有近2000个进程 [root@test-server ~]# top top - 10:00:32 up 184 days, 19:55, 2 users, load average: 49.39 ,进程数达到2000多个! tmpfs tmpfs 3.9G 0 3.9G 0% /dev/shm /dev/xvdb1 ext3 197G 18G 170G 10% /u01 5) 腾出磁盘空间 比如将大文件剪贴到大分区下,然后再软链接回来;或者清空大日志文件 6)杀死所有sendmail和postdrop进程后 [root@test-server ~]# ps -ef|grep

    1.3K60发布于 2018-01-22
  • 来自专栏小轻论坛

    软件卡死无法结束进程怎么办?

    如图,现在软件处于无响应状态,按理说多次点击窗体让它崩溃直接强制结束进程就行,但是今天格外有趣,不管怎么点,一直处于崩溃状态,难道这年头软件都emo了? 很多女孩子的第一想法应该是干脆就关机吧? 有电脑基础的还会打开系统的“任务管理器”结束进程,我们右击任务栏或者按“ctrl+alt+delete”即可打开。 我们这时候一般选中任务后点击右下角的‘结束进程”是完全可以解决问题的,但如果今天碰到的问题真这么简单,我就不会专门写这一篇推文了。 多次点击“结束进程”无果后,我想看看别人是怎么解决的,但是网上大多数人的建议就是用任务管理器关闭或者关机,有些人的回答甚至文不对题,说来说去还是一些老方法,根本就无用。 窗口会迅速滚动显示现在电脑里运行的进程。 翻阅上述的进程列表查到XX音乐的窗体PID是12924。 输入taskkill+/pid+进程PID,即:taskkill /pid 12924。

    3.5K10编辑于 2022-01-30
  • 来自专栏小轻论坛

    软件卡死无法结束进程怎么办?

    如图,现在软件处于无响应状态,按理说多次点击窗体让它崩溃直接强制结束进程就行,但是今天格外有趣,不管怎么点,一直处于崩溃状态,难道这年头软件都emo了? 很多女孩子的第一想法应该是干脆就关机吧? 有电脑基础的还会打开系统的“任务管理器”结束进程,我们右击任务栏或者按“ctrl+alt+delete”即可打开。 我们这时候一般选中任务后点击右下角的‘结束进程”是完全可以解决问题的,但如果今天碰到的问题真这么简单,我就不会专门写这一篇推文了。 多次点击“结束进程”无果后,我想看看别人是怎么解决的,但是网上大多数人的建议就是用任务管理器关闭或者关机,有些人的回答甚至文不对题,说来说去还是一些老方法,根本就无用。 窗口会迅速滚动显示现在电脑里运行的进程。 翻阅上述的进程列表查到XX音乐的窗体PID是12924。 输入taskkill+/+进程PID,即:taskkill /12924。

    1.9K10发布于 2021-11-24
  • Linux资源限制精讲,避免进程卡死

    每天分享技术栈,开发工具等 当您在生产环境中运行大量任务时,偶尔会遇到某个进程占用过多资源导致系统卡死,影响服务可用性。 基本概念 ulimit是 Linux 内建命令,用于设置单个用户进程可使用的资源上限,例如打开文件数、最大线程数等。超出限制时,系统会拒绝分配,从而避免进程 uncontrolled growth。 1024 个文件,会报错: bash:<程序>:Too many open files 四、cgroups:系统级更细粒度限制 Control Groups(cgroups) 提供对进程组的整体资源限制 启动进程到 cgroup # 将已有进程(PID 1234)加入 mydb cgclassify -g cpu,memory:mydb 1234 五、Docker Compose 集成示例 在容器环境中 cgroups(系统级):对进程组统一管理;可持久化配置,也可用于容器内部。 Docker Compose:在容器化场景下,利用 Docker 调度底层 cgroups,实现资源隔离。

    33600编辑于 2025-07-03
  • 来自专栏岛哥的质量效能笔记

    Linux 使用strace命令查找进程卡死原因

    点击小卡片,回复 “合集” 获取系统性的学习笔记和测试开发技能图谱 背景 最近遇到某个线上服务进程卡死的情况,但是在本地调试的过程中又没法复现,需要在线上服务器运行一段时间后在某些条件下才会触发。 定位问题 首先我们用ps auxf命令查看我们的进程执行到了哪一步: 可以看到执行到了[sh]然后就卡死了,然后我们接着通过strace命令来查看执行这个操作死在了哪个系统回调: root@demo :~# strace -p 6093 Process 6093 attached recvfrom(5, 可以看到是死在了系统回调recvfrom这里,描述符5的具体含义我们可以进入 /proc/pid lrwx------ 1 root root 64 Jul 14 05:58 4 -> socket:[675848446] lrwx------ 1 root root 64 Jul 14 05:58 5 -> socket:[675847890] 我们可以发现,5代表的是socket,说明进程是死在socket通讯上了,那么再去排查线上服务器中有哪些服务用到了socket,最后定位到是X服务中大量不合理的使用

    5.8K20发布于 2021-09-14
  • 来自专栏CSDN博客专家-小蓝枣的博客

    Linux系统查询指定路径下的进程,根据进程id号杀进程方法,进程卡死解决方法实例演示

    查询指定路径下的进程: ps aux | grep 指定路径 实例: ps aux | grep /data/nccode/ncc2020.05_for_ylz/ 根据进程 id 杀掉指定进程 kill -9 指定进程号 实例: kill -9 640582 案例: 我再该路径下起了一个服务,我要干掉我起的这个服务。 一般的进程信息里都会显示进程启用的路径,ps aux 是查看进程,grep 就是在前面的基础上再筛选查找包含指定内容的进程。 然后杀掉,再查一下可以看到没了,如果之前进程卡死了,这样就解决了,重新起进程就好了。

    4.6K20发布于 2021-12-01
  • 来自专栏walterlv - 吕毅的博客

    设置进程的 RedirectStandardOutput 重定向输出后,如果不将输出读出来,会卡死进程

    设置进程的 RedirectStandardOutput 重定向输出后,必须将其读出来。本文带你做一个实验并得出结论。 重定向输出 一个简单的尝试重定向输出的代码如下: 1 2 3 4 5 6 7 8 9 10 11 using var process = new Process { StartInfo = new 不过对于 Walterlv.Demo.exe 那个进程来说,就比较危险了…… 卡死! Walterlv.Demo.Output.exe 是什么程序呢? 说明–现在卡死了! 开发注意 如果你重定向了输出流,那么一定记得取出输出数据,否则会导致被启动的程序卡死在下一个 Console.WriteLine 中。

    63640编辑于 2023-10-22
  • 来自专栏Dissecting Unreal

    UE4UE5的崩溃,卡死等问题处理

    卡死检测 有时候我们很难根据崩溃的现场查到是什么原因崩溃的想在一些关键位置输出堆栈或内存等信息。或者不一定是崩溃,而是死循环卡死了,那么肯定不会有上面这样的dump信息输出。 对于业务卡死,虚幻引擎也封装了一个单独的守护线程ThreadHeartBeat,当检测到某个线程的心跳超时时,内部也是调用上面的函数将卡死的线程堆栈输出到log里,如下图。 我们平常一直说UE4/UE5的项目不要使用STL也是因为这个机制。 UE5也提供了Stomp2可以运行时通过命令行-stomp2malloc打开 PoisonProxy:这个模式就像名字说的一样,把内存都涂上毒。

    7.1K30编辑于 2022-10-05
  • 来自专栏iPhone技巧分享

    iOS 15 Beta升级卡死在更新进程,无法启动怎么办?

    但是许多用户反馈升级一直卡死在“准备更新”、“验证更新”,或者设备无法启动,卡在白苹果、恢复模式等。 [2t60le0wb6.jpg? ] 在本文中,我将介绍当iOS 15测试版升级卡死在更新进程中时该怎么办。 如果您的iPhone网络连接正常,升级过程可能会因为软件崩溃而卡死。我们可以通过强制重启设备快速解决这些系统问题。 方法三、iOS系统修复 如果您的iPhone仍然卡死在更新进程中,或者卡在白苹果、恢复模式更状态,那么是时候修复您的iOS系统了。 ] 希望以上三种方法可以帮助您解决iOS升级卡死在更新进程中的问题。

    2.7K30发布于 2021-06-18
  • 线上服务突然卡死?教你几招快速定位PHP-FPM进程假死问题

    使用连接池,避免频繁建立连接 • 监控数据库连接数 // 设置MySQL连接超时 $pdo = new PDO($dsn, $user, $pass, [ PDO::ATTR_TIMEOUT => 5, $ch = curl_init(); curl_setopt($ch, CURLOPT_TIMEOUT, 10); curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 5) 快速检测磁盘IO问题 # 查看磁盘IO使用率 iostat -x 1 5 # 重点关注这几个指标: # %util - 磁盘使用率,接近100%说明磁盘很忙 # await - 平均等待时间,超过20ms 我之前设置响应时间超过1秒就告警,结果每天收到几十条告警消息,后来调整到5秒才比较合理。 磁盘IO监控容易被忽略 很多人只关注CPU和内存,忽略了磁盘IO。 特别要重视磁盘IO问题,这个经常被忽略但影响很大 5. 保持冷静,按照既定流程逐步排查 记住,运维工作很多时候就是在和各种奇奇怪怪的问题做斗争。每解决一个问题,都是经验的积累。

    63610编辑于 2025-09-29
  • 来自专栏日常技术分享

    flutter doctor 卡死

    今天升级flutter 执行flutter doctor 卡死。 ? 解决办法 注意:我遇到的问题解决办法如下,问题可能千奇百怪。不一定能解决你出现的问题。

    3.5K10发布于 2020-08-28
  • 来自专栏初代庄主

    完了,MySQL 复制卡死!!!

    真事!有一个 Python 程序它会周期性的从 MySQL 的备机上读数据,用于完成它的业务逻辑。大致的代码如下(已经去掉了所有与业务相关的内容),最近发现它阻塞了 DDL 语句,导致MySQL 主从复制卡住不动。

    1.3K20编辑于 2022-12-19
  • 来自专栏walterlv - 吕毅的博客

    使用 SetParent 跨进程设置父子窗口时的一些问题(小心卡死

    在微软的官方文档中,说 SetParent 可以在进程内设置,也可以跨进程设置。当使用跨进程设置窗口的父子关系时,你需要注意本文提到的一些问题,避免踩坑。 在这篇文章的 DPI 感知一段中明确写明了在进程内以及跨进程设置父子关系时的一些行为。 虽然没有明确说明支持跨进程设置父子窗口,不过这段文字就几乎说明 Windows 系统对于跨进程设置窗口父子关系还是支持的。 只是这种担忧几乎说明跨进程设置 SetParent 存在一些坑。 那么本文就说说跨进程设置父子窗口的一些坑。 一个典型的消息循环大概像这样: 1 2 3 4 5 while(GetMessage(ref msg, IntPtr.Zero, 0, 0)) { TranslateMessage(ref msg

    2.3K20编辑于 2023-10-22
  • 来自专栏大数据学习笔记

    VNCServer卡死处理办法

    通过VNC连接远程Linux服务器,一段时间后,远程界面卡死,不能操作。 解决办法:重启vncserver服务。

    3.8K10编辑于 2022-05-06
  • 来自专栏浩Coding

    解决Linux桌面卡死问题

    当下发行的很多Linux桌面版都非常好用,但是问题随之而来,那就是经常遇到桌面卡死情况,接下来我介绍如何应对Linux桌面卡死情况,以Deepin系统为例。

    17.4K20发布于 2019-07-03
  • 来自专栏tencent cloud

    ​PyTorch 训练随机卡死 Debug

    异常情况如下所示:终端打印:DataLoader worker (pid XXX) is killed by signal: Bus error或者直接“静默卡死”,只有 CTRL+C 能打断。 把 num_workers=0 后恢复 → 不再卡住,但吞吐下降 → 多进程读取链路存在并发问题。 2️⃣ 观察进程与系统状态htop/top:有 1~2 个 DataLoader worker 占 100% CPU。 最终判断是由于Linux 下 DataLoader 使用 fork 复制主进程后,OpenCV 及其内部线程/加速库在子进程里存在初始化/锁状态不一致,导致偶发死锁。 以上就是本人遇到“玄学卡死”的完整复盘与修复。希望能帮你少踩一次 fork × 线程库 的坑。

    73910编辑于 2025-09-02
  • 来自专栏达摩兵的技术空间

    mac总是卡死折腾记

    如果你确认你mac是硬件ok,但是在某些程序运行的时候导致内存飙升,比如最明显吃内存的chrome,这时候可能就是你内存分配的一些问题,近期我就根据apple 官方的技术支持调整了一些,之后就变的“飞起来一样”,当然对正常的用户本来就是飞的体验。

    2.1K40发布于 2018-08-28
  • 来自专栏earthchen的专栏

    ubuntu在双系统下开机卡死或关机卡死的解决办法

    很多双显卡的笔记本在安装linux发行版的时候可能会出现问题, 笔者的电脑如果不在bios设置中设置屏蔽核显就会开机卡主,所以装系统时必须得屏蔽核显,全局独显,不然进系统就卡死,关机也关不掉, 刚开始也就这么用着 界面按e进入配置修改界面 找到有ro quiet splash这一行中(笔者这里是倒数第二行) 将ro后面的全部删掉 在ro后面加上nomodeset 按f10保存重启即可 然后就可以用核显啦,而且也不会卡死

    6.5K30发布于 2020-09-24
领券