首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏随手写个文章

    如何提高集群资源利用率

    场景说明 当我们手里有一个固定资源的集群时,需要做两件事:1. 资源管理,2. 成本效率管理;为了让进程跑在合适的机器我们需要任务调度器(深度学习任务跑在带GPU的物理机上),为了提高资源利用率(降本提效)则需要资源调度器(根据标签、算法进行调度)。 只有提高集群整体的利用率才能让大家都降本提效,超卖不在本话题讨论内(本质上在蹭人家花钱没用的资源,具体节省的钱有没有回馈给用户仅取决于市场的竞争惨烈度)。 图片 如图2,是一个业界常见的场景,资源的使用率随着时间进行周期变化,虽然一个周期内目标总资源使用量是1000,但是由于波峰是1500,所以最终总资源池为1500。 资源有限情况下,服务提供商根据资源在不同时段的利用率进行价格波动,来达到收益最高;用户则是根据手里的现金进行投票来满足不同时段的需求。

    82950编辑于 2023-10-07
  • 来自专栏存储知识

    如何提升AI资源利用率

    研究显示,AI工程化落地过程中,出现痛点从高到底依次是资源利用率、大模型落地、分布式训练效率、推理效率、国产化、异构芯片调度。其中,资源利用率出现频率接近后面五名的总和。 深挖痛点,其背后是资源分配不均衡、资源规划不合理、资源碎片多的问题。为了解决以上问题,可以引入云原生加存储资源盘活的组合解决方案。 存储资源盘活系统会充分利用用户的全部资源来提供最好的性能,帮助用户进一步提高现有硬件资源利用率。这对于硬件更新换代频率很快的AI领域来说是好消息:再也不用担心被淘汰的设备闲置了。 因此,存储资源盘活系统可以在同一个Linux操作系统实例中与其他应用程序并发运行,在不影响整体功耗的情况下大大提高了硬件利用率,也在一定程度上缓解了AI“耗电高”的痛点。存储资源盘活系统是高性能的。 可高效地对接私有云中各种存储资源,降低AI工程化的基础架构层管理运维成本,解绑硬件锁定,消除数据孤岛,全面提升AI资源利用率,解决AI工程化落地过程中资源分配不均衡、资源规划不合理、资源碎片多的问题。

    77520编辑于 2023-04-13
  • 来自专栏大数据

    YARN资源调度优化:最大化集群利用率

    当集群规模达到数百节点时,资源利用率往往成为制约性能的关键瓶颈。 1.1 资源碎片化问题通过yarn node -list -showDetails命令可观察到,集群中常出现"已分配但未使用"的资源碎片。 1.3 动态负载波动通过yarn application -appStates ALL -list可发现,凌晨时段集群利用率常低于20%,而工作日高峰时段超过90%。 2.2 调度器选型实践对比测试不同调度器性能(100节点集群):调度器类型任务完成时间资源利用率优先级响应CapacityScheduler2h35m68%⭐⭐FairScheduler2h10m75% 某头部云服务商的生产数据显示,采用强化学习算法优化调度策略后,集群资源利用率提升了27%,任务完成时间缩短了19%。

    53221编辑于 2025-09-10
  • 来自专栏AI+运维:智能化运维的未来

    AI让资源利用率爆表,你还在傻傻浪费吗?

    AI让资源利用率爆表,你还在傻傻浪费吗?运维的世界,从来不缺挑战——服务器负载飙升、资源分配不均、闲置率高、成本居高不下……这还只是冰山一角。 但如今,人工智能(AI)来了,带着它的预测能力、自适应调度和智能优化,狠狠地提升了资源利用率,让那些年“拍脑袋决策”的日子一去不复返。资源利用率低? 这些问题,说白了就是“资源不会自己动起来”。这时候,就需要AI来做“运维大脑”,让资源动起来、跑起来、高效起来。AI如何提升资源利用率?人工智能在运维领域最核心的作用,就是让资源的分配和使用更加智能。 ,无需调整")这种自动伸缩策略,让资源利用率达到最佳状态,不再浪费。 人工智能,让资源利用率不再是瓶颈,而是竞争力。

    32510编辑于 2025-05-14
  • 来自专栏【腾讯云开发者】

    提升内存资源利用率,TencentOS“悟净”硬核技术详解

    “悟净”利用OS内核侧进行内存优化的天然优势,保障业务内存使用性能前提下,将较冷的内存换出至较便宜的设备上,从而降低整机的内存消耗,提高内存资源利用率,通过平滑降配、负载调压、内存超卖等手段实现降本增效 可以通过池化方式让 CPU 访问海量内存,其慢于 CPU 所对应的 Local Node 内存,但远快于 IO 与内存压缩,因此换出优先级是最高的,若将 CXL 作为内存卸载的首选设备,可以在提升内存利用率的同时提高业务性能 我们重新构思,对 Cgroup V1 PSI 进行了完全重构,对资源事件分类过滤,大幅度优化代码实现,获得最大的上游兼容性同时提高性能。 上游 DAMON 亦缺失 Cgroup 支持。 内存超卖 同等资源可以释放更多可用内存,部署或售卖更多业务实例。 负载调压 自动进行业务画像,自适应进行内存负载调节,降低颠簸的同时节约成本。 后续我们会继续聚焦优化内存降本增效技术,提升内存资源利用率,通过技术手段助力业务商业增值。 本次分享到这里就结束啦!如果对我们后续内容感兴趣,欢迎收藏转发本片文章,期待与大家在评论区分享交流。

    2.9K31编辑于 2023-06-05
  • 来自专栏CNCF

    Pod优先级和抢占提高Kubernetes集群资源利用率

    解决此问题的一个显而易见的解决方案是过度配置群集资源,以便为扩展情况提供一些闲置资源。这种方法通常有效,但成本更高,因为你必须为大多数时间闲置的资源付费。 它还提供了一种方法来提高群集中的资源利用率,而不会牺牲基本工作负载的可靠性。 提高集群资源利用率 运行关键服务的集群运营商会随着时间,粗略估计他们在集群中需要的节点数量,以实现高服务可用性。估计通常是保守的。此类估计会考虑流量突发以查找所需节点的数量。 唯一的问题是这种估计通常是保守的,而且大多数时候集群资源可能仍未得到充分利用。Pod优先级和抢占允许你通过在群集中运行非关键工作负载来显着提高资源利用率。 当你的关键工作负载需要更多计算资源时,调度程序会抢占非关键容器并安排关键容器。 非关键pod填充了群集资源中的“空隙”,可在不增加成本的情况下提高资源利用率

    1.1K10发布于 2019-12-04
  • 来自专栏腾讯云原生团队

    智能 Request 推荐,K8s 资源利用率提升 252%

    虽然 Kubernetes 可以有效的提升业务编排能力和资源利用率,但如果没有额外的能力支撑,提升的能力十分有限,根据 TKE 团队之前统计的数据:Kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析 ,如下图所示:TKE 节点的资源平均利用率在 14% 左右。 为什么 Kubernetes 集群的资源利用率依旧不高? 另外,每个节点的资源很难被充分分配,如下图所示,节点普遍会存在一些资源的碎片(Leftover),这些都是导致集群整理资源利用率不高的原因。 资源实际利用率到底有多低? 提升资源利用率有很多种方法,详见 Kubernetes 降本增效标准指南| 资源利用率提升工具大全。本文主要探讨 Request 的设置。

    4.1K40发布于 2021-11-26
  • 来自专栏腾讯云原生团队

    kubernetes 降本增效标准指南| 资源利用率提升工具大全

    在《Kubernetes 降本增效标准指南》系列的上一篇文章《容器化计算资源利用率现象剖析》中可看到,IDC 上云后资源利用率提高有限,即使已经容器化,节点的平均利用率依旧仅在 13% 左右,资源利用率的提升任重道远 资源浪费场景 为何资源利用率通常都如此之低? 如何更自动化的动态调整以提升资源利用率是用户更关心的问题,接下来从弹性伸缩、调度、在离线混部三大产品化的方向,详述如何提升资源利用率。 一方面,为了降低成本,资源利用率当然是越高越好,但是资源利用率达到一定水位后,负载过高极有可能导致业务 OOM 或 CPU 抖动等问题。 总结 资源利用率的提升道阻且长,如何在保障业务稳定性的前提下,有效提升资源利用率具有较大挑战。

    3.4K43发布于 2021-04-09
  • 来自专栏码农的生活

    多媒体内容处理:成本降低40%、资源利用率提高20%

    这种架构也导致了忙时服务间抢占资源的情况频繁发生,影响服务成功率及耗时,导致我们没有办法很好的满足客户的需求;而闲时资源利用率非常低,容易造成资源浪费。 客户搞活动时提出高并发需求,如果当前物理机/vm资源池不满足,需要向资源同学紧急提物理机需求,资源同学协调到机器后,我们需要人工对机器环境/网络重新初始化,然后执行上述1操作。

    38020发布于 2021-09-24
  • 来自专栏Lauren的FPGA

    资源利用率报告中的LUT和LUTRAM有什么区别

    通过Report Utilization查看资源利用率报告时,会生成如下图所示的一个表格。在这个表格中Resource对应的列会有LUT和LUTRAM,那么两者到底有什么区别呢?是包含关系吗? 对每个模块采用OOC综合方式,可以验证上述对每个模块LUT利用率推断的正确性,如下图所示。 ? 打开布线后的DCP,执行report_utilization命令,结果如下图所示。 结论: -资源利用率中的LUT是指设计中消耗的所有LUT,包括用做逻辑函数发生器的LUT(SLICEL中的LUT),也包括用做存储单元的LUT(SLICEM中的LUT) -资源利用率报告中的LUTRAM

    5.2K20发布于 2019-10-31
  • 来自专栏我的小碗汤

    使用 Kube-capacity CLI 查看 Kubernetes 资源请求、限制和利用率

    原文‍ https://reurl.cc/rD9oYO Kube-capacity 是一个简单而强大的 CLI,它提供了Kubernetes集群中资源请求、限制和利用率的概览。 当-p或--pods被传递给 kube-capacity 时,它将包含如下所示的特定于 pod 的输出 包括利用率 为了帮助了解资源利用率与配置的请求和限制的比较,kube-capacity 可以在输出中包含利用率指标 当-u或--util被传递给 kube-capacity 时,它将包含如下所示的资源利用率信息: 包括 Pod 和利用率 对于更详细的输出,kube-capacity 可以在输出中包含 pod 和资源利用率 当--util和--pods传递给 kube-capacity 时,它将产生如下所示的宽输出: 值得注意的是,来自 pod 的利用率数字可能不会与总节点利用率相加。 与节点和集群级别数字代表 pod 值总和的请求和限制数字不同,节点指标直接来自指标服务器,并且可能包括其他形式的资源利用率

    1.1K10编辑于 2023-03-19
  • 来自专栏腾讯云技术沙龙

    庄鹏锐:腾讯云Kubernetes集群提升资源利用率的实践

    下面是庄鹏锐老师关于腾讯云内部平台STKE是如何提升平台资源利用率的内容分享。 讲师介绍:庄鹏锐,腾讯云高级工程师。先后在唯品会,vivo,腾讯等公司从事Kubernetes云平台建设的工作。 首先我们可以看到,为什么我们的集群资源利用率不够高?其中大概会归纳为几个方向,第一个是Node节点资源的碎片。 比如当Node资源已分配非常多,但是使用率又相对比较低的时候,我们认为这个Node的实际利用率很低,可以进行超卖。 最后一点是动态调整的最小副本数,这个在我们的整个提到集群利用率是很明显的效果,比如说我们之前是有发现有一些用户它的最小副本数就是设置了1000个,但是他的资源利用率就只有0.1%,这是一个很浪费资源的情况 最后一点是适配我们自身的资源分配、资源管理的方案去做,比如某个业务有多少核资源可以申请,但是你要是超过这个业务的配额,我也会直接把它拒绝掉,另外一个也是不能超过Node本身的可分配资源

    4K53发布于 2019-11-18
  • 来自专栏腾讯云原生团队

    直播预约|TencentOS “如意”显威力,大力提升服务器资源利用率

    由于时间关系,讲师并未全部回答,但有部分关于”CPU资源利用“、”为什么要做服务器层面的资源QoS“等问题都涉及到我们接下来第六期直播分享内容! 下周6月22日周二晚19:30,聚焦腾讯 TencentOS 的服务器资源 QoS 产品:“如意”,向大家介绍我们如何在保障在线业务服务质量的前提下,提升服务器资源利用率。 · 主题简介 · 各互联网巨头 IDC 的规模增长迅速,CPU 等资源利用率却普遍处于一个较低的水平。要部署更多的离线业务提升利用率,又难免会对在线业务造成影响。 本次分享将聚焦腾讯 TencentOS 的服务器资源 QoS 产品:“如意”,向大家介绍我们如何在保障在线业务服务质量的前提下,提升服务器资源利用率。 了解TencentOS的服务器资源QoS产品“如意“及其主要功能。 了解”如意“在实际业务场景中的实践效果。

    95930发布于 2021-06-18
  • 来自专栏腾讯云原生团队

    kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析

    IDC的计算资源冗余,平均利用率低至10% IDC 数据中心由于缺少弹性能力,为保证业务应对突发请求等情况,普遍资源会存在冗余,资源使用率低。 首先我们来看看全球数据中心的利用率。 而资源利用率高的企业,在业务容器化后,更多利用了业务混合部署,大大提高了容器部署密度,让单节点容器密度平均在1:10,进而提升资源利用率。 另外,基于K8s的调度编排能力,支持按照Pod真实负载进行动态调度,提升节点资源利用率;在线业务低负载运行时,同时部署“对延时不敏感”的离线业务,提高资源利用率。 提升资源利用率的关键点 腾讯内部容器化业务资源利用率也是权衡容器化深度的关键指标,根据腾讯云原生团队对容器弹性伸缩的实践经验,通过不同维度的弹性能力展开来看容器化后资源利用率提升的关键点, 首先看看 资源利用率成熟度模型 针对本次调研的数据分析,腾讯云原生团队提出了容器化资源利用率成熟度模型。

    4.1K176发布于 2021-03-30
  • 服务器资源利用率低怎么办?5步优化实战

    服务器资源利用率低怎么办?5步优化实战服务器资源利用率低?别慌!5步实战排坑指南服务器资源利用率低,就像买了一辆跑车只用来买菜一样,浪费!但别急着加配置,很多时候是姿势不对。 第四步:容器化——资源隔离,提高利用率使用Docker等容器技术,可以将不同的应用隔离到不同的容器中,避免资源争抢。容器可以限制CPU、内存等资源的使用量,确保每个应用都有足够的资源,但又不会浪费。 容器本身也会占用一定的资源,需要权衡利弊。第五步:监控和告警——防患于未然仅仅优化是不够的,还需要持续监控服务器的资源使用情况,及时发现问题。 值得注意的是,在vDisk云桌面场景中,由于采用集中化的资源管理,可以通过监控平台实时查看所有云桌面的资源使用情况。vDisk的云端管理功能可以方便地进行统一配置和管理,避免了传统PC运维的复杂性。 没有一劳永逸的解决方案,只有不断优化才能提高服务器的利用率和性能。

    16110编辑于 2026-01-31
  • IBM Spectrum LSF 混合云调度实现芯片设计资源利用率超95%

    尤其在芯片设计领域,EDA仿真压力大、研发周期压缩与高安全要求进一步加剧了资源调度和基础设施管理的复杂性。 、混合环境下的统一资源调度。 资源利用率提升至95%与成本节省数百万美元 该方案支持单集群从100节点快速扩展至1000节点,并实现超过95%的整体资源利用率。 某芯片设计客户通过弹性调度和资源优化,节省了数百万美元的芯片设计成本,显著缩短产品上市周期。 “通过腾讯云TCE和IBM LSF的混合调度,我们实现了本地和云资源的无缝扩展,大幅提升了仿真效率和资源利用率。”

    10510编辑于 2026-04-07
  • 来自专栏AI+运维:智能化运维的未来

    大模型加持下的运维新纪元:资源利用率的极限优化

    大模型加持下的运维新纪元:资源利用率的极限优化在运维领域,资源利用率提升一直是技术人员关心的头等大事。毕竟,服务器不满载是一种浪费,而过载则可能导致崩溃。 随着大模型(如GPT、LLM、深度学习模型)的兴起,运维优化迎来了全新的可能性——不再仅仅依靠人工策略,而是依托强大的模型智能,实现动态调整、自动预测和资源优化。一、大模型如何助力资源优化? 在运维场景中,大模型的主要作用可以归结为三点:预测负载:根据历史数据和业务趋势,预测未来的资源需求,提前分配资源。智能调度:动态调整资源分配,保证任务负载合理,减少闲置或拥塞。 预测负载:让资源分配更精准传统的资源分配通常采用固定的配额方案,比如设定服务器CPU占用不能超过70%。 总结:运维领域的大模型变革大模型的出现,让资源优化进入智能化时代。从负载预测到智能调度,再到异常检测与自动修复,这些技术的结合可以极大提高资源利用率,减少人工干预,让运维更加高效、智能、稳定。

    39010编辑于 2025-04-15
  • 来自专栏X

    电脑监控软件开发实战:使用Python实现的硬件资源利用率监控

    在当今数字化时代,监控计算机硬件资源利用率对于系统管理和性能优化至关重要。本文将介绍如何使用Python开发一款简单而高效的电脑监控软件,实现对硬件资源利用率的实时监控。 我们将重点关注CPU和内存的利用率,并演示如何将监控到的数据自动提交到一个指定的网站。首先,我们需要安装Python并安装相关的第三方库。 我们将使用psutil库来获取系统的硬件资源利用率数据,以及requests库来实现数据的自动提交到网站。 函数monitor_resource()通过一个无限循环来持续监控硬件资源利用率,然后将数据打印输出并调用submit_data()函数来提交数据到网站。 总的来说,通过这篇文章,我们学习了如何使用Python开发一款简单的电脑监控软件,实现对CPU和内存利用率的实时监控,并将监控到的数据自动提交到一个指定的网站。

    55910编辑于 2024-04-30
  • 来自专栏深度学习与python

    在线业务极致伸缩、CPU 利用率达 60%,涂鸦的云原生资源优化实践

    但是深入分析下来,集群资源使用还是有不小的优化空间。当然,成本和稳定性总是对立的,这就要求我们更精细、更深入业务进行资源的优化,以同时保证应用的稳定性不受影响。 它的特点是无查询是基本无资源消耗,当有查询尤其是大查询时,会瞬间需要大量资源,因此很自然的希望借助 K8s 的 HPA 进行弹性扩缩容。 优先调度到资源较为空闲的节点上,是一种资源打散的策略,目的是尽可能是 node 节点的资源分配比例平均,避免某一节点负载过高。 为了提升资源使用率,我们本身就存在不小比例的资源超卖,并且我们集群中的服务,基本全部都是在线服务,对稳定性要求高,堆叠调度带来的比较大节点负载差异,极端情况下,很有可能影响节点的稳定性,甚至带来集群雪崩的风险 k8s 调度器本身感知到的是节点的 requests 分配比例,而不是实际的资源负载,因此,如果 reqeusts 本身不能准确反映出 Pod 实际的资源使用情况的话,在集群资源水位比较高的情况下,就可能出现节点之间的实际资源负载差距较大的现象

    89810编辑于 2024-01-11
  • GPU 集群资源利用率过高?从异常 ECS 实例排查到清理全实操

    在公有云GPU集群运维工作中,资源利用率畸高是高频且影响深远的痛点问题。 一、问题触发:异常高利用率的现状与核心影响GPU集群的资源异常往往隐蔽性较强,若仅依赖常规监控告警,易错过最佳处置时机。 更关键的是,该高利用率状态持续2小时无任何回落趋势,集群资源水位逼近饱和,平台已触发“算力资源紧张二级告警”,提示低优先级资源申请将被驳回,高优先级业务也面临调度延迟风险。 公有云GPU资源单价远高于普通计算资源,93.56%的高利用率中,约60%的算力被无实际业务价值的异常实例占用,经测算,仅月度无效资源成本就增加30%以上,大幅拉低资源投入产出比。 ,提升算力资源利用率,为企业降本增效与业务稳定运行提供支撑。

    17200编辑于 2026-01-20
领券