研究显示,AI工程化落地过程中,出现痛点从高到底依次是资源利用率、大模型落地、分布式训练效率、推理效率、国产化、异构芯片调度。其中,资源利用率出现频率接近后面五名的总和。 深挖痛点,其背后是资源分配不均衡、资源规划不合理、资源碎片多的问题。为了解决以上问题,可以引入云原生加存储资源盘活的组合解决方案。 存储资源盘活系统会充分利用用户的全部资源来提供最好的性能,帮助用户进一步提高现有硬件资源的利用率。这对于硬件更新换代频率很快的AI领域来说是好消息:再也不用担心被淘汰的设备闲置了。 因此,存储资源盘活系统可以在同一个Linux操作系统实例中与其他应用程序并发运行,在不影响整体功耗的情况下大大提高了硬件利用率,也在一定程度上缓解了AI“耗电高”的痛点。存储资源盘活系统是高性能的。 可高效地对接私有云中各种存储资源,降低AI工程化的基础架构层管理运维成本,解绑硬件锁定,消除数据孤岛,全面提升AI资源利用率,解决AI工程化落地过程中资源分配不均衡、资源规划不合理、资源碎片多的问题。
“悟净”利用OS内核侧进行内存优化的天然优势,保障业务内存使用性能前提下,将较冷的内存换出至较便宜的设备上,从而降低整机的内存消耗,提高内存资源利用率,通过平滑降配、负载调压、内存超卖等手段实现降本增效 一方面,得益于高性能内存压缩算法和 CPU 性能的提升,我们可以消耗极少的 CPU 时间来进行内存内部的 SWAP 压缩换出,换取内存空间。 CXL 可以通过池化方式让 CPU 访问海量内存,其慢于 CPU 所对应的 Local Node 内存,但远快于 IO 与内存压缩,因此换出优先级是最高的,若将 CXL 作为内存卸载的首选设备,可以在提升内存利用率的同时提高业务性能 内存超卖 同等资源可以释放更多可用内存,部署或售卖更多业务实例。 负载调压 自动进行业务画像,自适应进行内存负载调节,降低颠簸的同时节约成本。 后续我们会继续聚焦优化内存降本增效技术,提升内存资源利用率,通过技术手段助力业务商业增值。 本次分享到这里就结束啦!如果对我们后续内容感兴趣,欢迎收藏转发本片文章,期待与大家在评论区分享交流。
虽然 Kubernetes 可以有效的提升业务编排能力和资源利用率,但如果没有额外的能力支撑,提升的能力十分有限,根据 TKE 团队之前统计的数据:Kubernetes 降本增效标准指南| 容器化计算资源利用率现象剖析 为什么 Kubernetes 集群的资源利用率依旧不高? 另外,每个节点的资源很难被充分分配,如下图所示,节点普遍会存在一些资源的碎片(Leftover),这些都是导致集群整理资源利用率不高的原因。 资源实际利用率到底有多低? 在腾讯云原生 Kubernetes 降本增效标准指南| 资源利用率提升工具大全资源常见浪费场景部分,有对单一的工作负载进行分析,工作负载设置的 Request 中至少有一半的资源没有被使用,而且这部分资源不能被其他的工作负载使用 提升资源利用率有很多种方法,详见 Kubernetes 降本增效标准指南| 资源利用率提升工具大全。本文主要探讨 Request 的设置。
在《Kubernetes 降本增效标准指南》系列的上一篇文章《容器化计算资源利用率现象剖析》中可看到,IDC 上云后资源利用率提高有限,即使已经容器化,节点的平均利用率依旧仅在 13% 左右,资源利用率的提升任重道远 在 Kubernetes 上提升资源利用率的方法 腾讯云容器服务 TKE 基于大量的用户实际业务,已经产品化了一系列工具,帮助用户轻松有效的提升资源利用率。 如何更自动化的动态调整以提升资源利用率是用户更关心的问题,接下来从弹性伸缩、调度、在离线混部三大产品化的方向,详述如何提升资源利用率。 总结 资源利用率的提升道阻且长,如何在保障业务稳定性的前提下,有效提升资源利用率具有较大挑战。 利用上述这些 TKE 的产品化方案,可以有效帮助用户解决资源利用率提升过程中的种种挑战,此外 TKE 也在开发其他的工具帮助用户降低提升资源利用率的门槛。
摘要: 云手机成本由资源、带宽、存储三部分组成,企业往往因带宽计费理解不足导致成本失控。本文详解带宽计费优化策略与资源利用率提升方法,助力企业降低云手机运营成本。 1.4 资源利用率提升方法 除了带宽成本优化,提升云手机资源本身的利用率,也是控制成本的重要方向。 a. 单卡多开提升资源产出。腾讯云手机支持单卡最多虚拟化6个云手机实例。 需要新增实例时,基于镜像快速创建,大幅缩短环境准备时间,提升资源投入使用的速度,间接提升了资源利用率。 c. 智能调度匹配业务峰谷。 对于需要多个云手机实例协同完成的任务,通过负载均衡将任务合理分配到各个实例上,避免出现部分实例过载、部分实例闲置的情况,从整体提升资源池的利用率。 二、结尾 云手机的成本控制是一项系统性工作,需要从资源采购、带宽优化、存储管理、利用率提升等多个维度综合施策。
下面是庄鹏锐老师关于腾讯云内部平台STKE是如何提升平台资源利用率的内容分享。 讲师介绍:庄鹏锐,腾讯云高级工程师。先后在唯品会,vivo,腾讯等公司从事Kubernetes云平台建设的工作。 首先我们可以看到,为什么我们的集群资源利用率不够高?其中大概会归纳为几个方向,第一个是Node节点资源的碎片。 比如当Node资源已分配非常多,但是使用率又相对比较低的时候,我们认为这个Node的实际利用率很低,可以进行超卖。 最后一点是动态调整的最小副本数,这个在我们的整个提到集群利用率是很明显的效果,比如说我们之前是有发现有一些用户它的最小副本数就是设置了1000个,但是他的资源利用率就只有0.1%,这是一个很浪费资源的情况 最后一点是适配我们自身的资源分配、资源管理的方案去做,比如某个业务有多少核资源可以申请,但是你要是超过这个业务的配额,我也会直接把它拒绝掉,另外一个也是不能超过Node本身的可分配资源。
由于时间关系,讲师并未全部回答,但有部分关于”CPU资源利用“、”为什么要做服务器层面的资源QoS“等问题都涉及到我们接下来第六期直播分享内容! 下周6月22日周二晚19:30,聚焦腾讯 TencentOS 的服务器资源 QoS 产品:“如意”,向大家介绍我们如何在保障在线业务服务质量的前提下,提升服务器资源利用率。 · 主题简介 · 各互联网巨头 IDC 的规模增长迅速,CPU 等资源利用率却普遍处于一个较低的水平。要部署更多的离线业务提升利用率,又难免会对在线业务造成影响。 本次分享将聚焦腾讯 TencentOS 的服务器资源 QoS 产品:“如意”,向大家介绍我们如何在保障在线业务服务质量的前提下,提升服务器资源利用率。 了解TencentOS的服务器资源QoS产品“如意“及其主要功能。 了解”如意“在实际业务场景中的实践效果。
场景说明 当我们手里有一个固定资源的集群时,需要做两件事:1. 资源管理,2. 成本效率管理;为了让进程跑在合适的机器我们需要任务调度器(深度学习任务跑在带GPU的物理机上),为了提高资源利用率(降本提效)则需要资源调度器(根据标签、算法进行调度)。 只有提高集群整体的利用率才能让大家都降本提效,超卖不在本话题讨论内(本质上在蹭人家花钱没用的资源,具体节省的钱有没有回馈给用户仅取决于市场的竞争惨烈度)。 图片 如图2,是一个业界常见的场景,资源的使用率随着时间进行周期变化,虽然一个周期内目标总资源使用量是1000,但是由于波峰是1500,所以最终总资源池为1500。 资源有限情况下,服务提供商根据资源在不同时段的利用率进行价格波动,来达到收益最高;用户则是根据手里的现金进行投票来满足不同时段的需求。
针对推理场景,其TACO-LLM推理加速方案通过显存优化与计算优化提升效率。显存优化采用可复用定长缓存与AWQ量化技术,将单机支持参数规模提升38%,最高支持55B参数模型。 量化性能提升:显著提高吞吐并突破资源限制 TACO-LLM方案在真实业务模型中验证了显著的性能增益: 业务生文bt模型测试:在2并发请求下,TACO-LLM处理请求数达到1408个,对比原方案(752个 )提升87.2%(来源:测试数据)。 业务生文cy模型测试:在2并发请求下,TACO-LLM处理请求数为1923个,对比原方案(1317个)提升46.0%(来源:测试数据)。 TencentOS如意RUE内核支持CPU与GPU业务混布,通过动态资源调度与抢占,实现业务零改造接入,提升资源利用率。
容器化过程记录 我们的容器化上云到现在为止可以分为三步:容器化,稳定性提升和利用率提升。 后来又出现了整个地域的资源都比较紧缺的情况,于是我们把一些对时延不那么敏感的服务进行了多地域部署(如下图),最终将集群资源不足的风险进一步降低。 ,这是南京和广州的 LB 权重分别为130,100) 利用率提升 在进行过一轮稳定性提升之后,我们可以更加自信的利用弹性能力,利用率也有了显著提升。 不过依旧有两个问题阻碍着我们的利用率更进一步。一个是有些服务模型大,启动慢,流量突增时服务无法很及时的扩容出来,这时我们必须要提前占用一些资源导致利用率提不上去。 成果 优化前 优化后 资源占用 1500+CPU 物理机 ( 8w+ 核)800+GPU 物理机 (P4 1600 卡) CPU 6w 核 T4 1000 卡 资源利用率 10% 30% 成本 - -
随着国产加速芯片(NPU等)的加入,企业算力基础设施面临以下核心挑战: 资源孤岛: 英伟达与国产算力集群分散,缺乏全局资源视图,导致资源利用率低下。 量化指标验证资源效能提升 通过TCS平台的调度优化与资源共享技术,在资源利用率与推理性能上实现了具体的量化提升: 资源粒度控制: 支持以5%算力、1G显存的粒度进行GPU共享资源分配,透明无感。 推理性能加速: 在DeepSeek-R1:70B模型场景下,相比vLLM框架,TACO-LLM推理引擎带来平均80%的性能提升(16并发从121.01 token/s提升至202.68 token/s; 成果: 实现了统一技术标准与业务架构的整合,通过离在线混部与GPU虚拟化技术提升基础资源利用率。 案例三:某头部手机制造厂商推理加速 背景: AI功能调用频繁,高并发场景下对推理底座性能要求极高。 为什么选择腾讯云TCS 技术领先性 唯一在离线混部能力: qGPU是业界唯一支持GPU离在线混部能力的产品,支持在线100%抢占,极致提高GPU利用率。
本文将结合新零售企业的实际业务场景,深入探讨 AI 资源利用率提升的配置策略,为企业提供实用的成本控制方案。 四、提升 AI 资源利用率的配置策略4.1 资源动态分配策略根据不同业务场景的需求,动态分配 AI 资源。例如,在促销活动期间,增加智能营销和客服系统的资源分配;在非高峰期,减少资源使用,降低成本。 5.3 实施效果成本降低:通过实施上述策略,企业的 AI 资源成本降低了 30% 以上。资源利用率提升:AI 资源的利用率提高了 40% 以上,系统的响应速度和处理能力得到了显著提升。 6.2 制定策略根据评估结果,结合企业的业务需求和发展战略,制定适合企业的 AI 资源利用率提升配置策略。该流程图展示了 AI 资源利用率提升配置策略的实施步骤。 通过不断循环优化,最终实现 AI 资源利用率的提升和成本的控制。6.3 实施策略按照制定的策略,逐步实施资源动态分配、模型优化、数据管理和多租户共享等措施。
当集群规模达到数百节点时,资源利用率往往成为制约性能的关键瓶颈。 2.2 调度器选型实践对比测试不同调度器性能(100节点集群):调度器类型任务完成时间资源利用率优先级响应CapacityScheduler2h35m68%⭐⭐FairScheduler2h10m75% 某次深夜紧急故障排查揭示:当将yarn.resourcemanager.zk-timeout-ms从默认30s调整为15s时,ZK异常检测速度提升2倍,意外降低了20%的资源申请延迟。 某头部云服务商的生产数据显示,采用强化学习算法优化调度策略后,集群资源利用率提升了27%,任务完成时间缩短了19%。 深度连接: 点击 「头像」→「+关注」 每周解锁: 一线架构实录 | 故障排查手册 | 效能提升秘籍
还没有收看的同学也不用着急,我们所有的分享都有直播回放,手指滑倒底部,就可以看到【云原生正发声】的全部直播回放哦~ 上次直播的交流过程中,很多同学提到关于”CPU资源利用“、”服务器层面的资源QoS“等技术内容 ,想了解更多,其实这些问题都会在我们明天6月22日直播分享得到解答哦~ 明晚6月22日19:30,腾讯云高级工程师李弘博,将与我们一起聚焦腾讯 TencentOS 的服务器资源 QoS ,向大家介绍我们如何在保障在线业务服务质量的前提下 ,提升服务器资源利用率。
但是缺点也很明显,即在非多媒体业务场景,预留的 CMA 区域无法得到利用,整机内存利用率变低了。第二个方案对整机友好,因为没有 CMA 预留,整机内存利用率相比方案一更高。 buddy 系统可以利用这部分页面用于满足可移动页面的分配请求,这样既保证了预留内存是物理连续的,又提高了整机内存利用率。3. cma_init_reserved_mem() 函数进行 CMA 区域的创建:rmem_cma_setup()`-|cma_init_reserved_mem()创建完成后,由于暂时没有设备驱动使用,为了提升内存利用率 五、OpenHarmony对CMA的增强当前,CMA 主要存在两个问题:CMA 区域内存利用率低。 问题1:CMA区域内存利用率低当前 Linux 内核 CMA 区域使用策略较为保守,CMA 内存区域利用率低。
在当今大数据时代,数据量的持续激增为企业带来了数据利用率提升的挑战。传统的数据库技术虽然能够存储和管理大规模数据,但在面对诸如性能瓶颈、数据一致性问题等挑战时,表现逐渐乏力。 机器学习作为一项强大的技术手段,能够帮助数据分析师和开发人员更好地挖掘、预测和利用数据,提升决策的准确性和效率。 YashanDB作为一款具有高性能和高可扩展性的数据库,在与机器学习结合后,能够有效提高数据的利用率,为企业赋能,使其在激烈的市场竞争中脱颖而出。核心技术点分析1. 这样的数据整合能力为机器学习提供了多样化的数据输入,有助于提升模型的泛化能力和实际应用效果。具体技术建议充分利用YashanDB的列存表存储结构,以提高数据访问速度,特别是在机器学习模型训练阶段。 结论YashanDB与机器学习的结合为提升数据利用率提供了强有力的技术保障。通过高效的存储引擎、分布式计算能力和多版本并发控制,企业能够有效地管理大规模数据,快速响应市场需求,并提高决策的准确性。
重复造轮子与资源错配: 传统开发模式存在大量重复的增删改查工作;同时,由于迁移上云用户的使用习惯局限(常以1:2的vCPU/内存比例申请资源,而非推荐的1:4均衡型),导致CPU使用较多而内存大量剩余, 计算资源整体利用率低下。 从易于迁移的云服务器入手,先外围后核心;优先将访问流量有突发变化或对数据融合处理有较高要求的弹性业务上云,以获取最明显的效益提升。 核心指标实现质的飞跃:开发时间缩短30%,开发人效提升40%,需求响应速度提升50%,系统缺陷数量大幅降低70%。 计算与存储成本(Ops Cost)双降: 针对资源错配,通过建立CPU超分资源池并动态调整比例,计算资源利用率成功提升12.6%。
由中国信通院云大所副总工程师陈屹力、腾讯云容器技术专家孟凡杰共同讲解,在线与开发者一同交流提升企业资源利用率方法和最佳实践。 中国信通院调查报告还显示,云原生技术给企业带来的价值中,提升资源利用率节约成本连续两年排名第一,2021年,已有九成用户认可该项价值。 (提升资源利用率节约成本连续两年排名第一) 《2020 年 CNCF 中国云原生调查》报告也指出,企业使用 Kubernetes 比例从 2019 年的 72% 增长到了82%。 腾讯云对1000多家客户的资源利用率调查分析也显示,42%的节点资源利用率低于10%,72%的节点资源利用率低于20%,15%的节点资源利用率在20%~30%之间,只有不到13%的客户节点资源利用率大于 提升资源利用率,通过技术实现降本增效已是行业的共性需求,基于此,在2021年底,由中国信通院、腾讯云、作业帮联合编写推出《降本之源-云原生成本管理白皮书》,通过2万多字系统介绍了提升资源利用率方法和优秀案例
理想状态下,企业期望实现云上云下一体化调度,但现实中面临以下四大业务与工程瓶颈: 计算资源利用率极低:云下物理机资源利用率普遍仅在 10%-20%(部分集群常态为 10%~14%),产生严重资源浪费。 三、 驱动计算资源利用率与交付效率的量化跃升 基于 TKE 注册节点及配套调度能力的落地,企业在核心业务指标(ROI)上获得了明确的数值化提升: 核心指标一:综合资源利用率最高提升 5 倍 通过资源池化 进一步结合业界唯一的在离线混部技术,单节点 CPU 利用率可提升 300%。 核心指标二:GPU 部署密度提升 3 倍 应用 qGPU 虚拟化方案后,资源部署密度最高提升 3 倍,GPU 卡整体利用率提升 100%,且业务性能几乎达到零损耗。 量化收益:云上 5 分钟完成 qGPU 交付;通过 GPU 10% 算力切分实现共享,GPU 利用率提升 70%。
AI让资源利用率爆表,你还在傻傻浪费吗?运维的世界,从来不缺挑战——服务器负载飙升、资源分配不均、闲置率高、成本居高不下……这还只是冰山一角。 但如今,人工智能(AI)来了,带着它的预测能力、自适应调度和智能优化,狠狠地提升了资源利用率,让那些年“拍脑袋决策”的日子一去不复返。资源利用率低? 这些问题,说白了就是“资源不会自己动起来”。这时候,就需要AI来做“运维大脑”,让资源动起来、跑起来、高效起来。AI如何提升资源利用率?人工智能在运维领域最核心的作用,就是让资源的分配和使用更加智能。 ,无需调整")这种自动伸缩策略,让资源利用率达到最佳状态,不再浪费。 人工智能,让资源利用率不再是瓶颈,而是竞争力。