: ---- 前言:12月19日,在 Cloud Native Days China -云原生AI大数据专场,腾讯技术事业群高级工程师薛磊发表了《云原生AI平台的加速与实践》主题演讲。 ? 演讲主要包含五部分的内容: Kubernetes介绍 AI离线计算 AI场景下Kubernetes的不足 Kubeflow 星辰算力平台的架构 Kubernetes介绍 K8s是生产级的容器编排系统,它也是云原生应用最佳的一个平台 因此,对于我们而言在AI平台上面也可以基于K8s的架构进行额外的开发。 AI离线计算 ? 典型的AI场景 ? ? 支持所有流行语言,如 Python、C++、Java、R和Go 可以在多种平台上工作,甚至是移动平台和分布式平台 2)PyTorch PyTorch是一个开源的Python机器学习库,基于Torch, 提供TensorFlow原生PS-worker架构 的多机训练 推荐将PS和worker一起启动 通过service做服务发现 在社区中最早期的Operator 星辰算力平台的架构 它为私有云的一个离线计算平台
给近半年做的云原生AI算力平台做一个回顾, 思考和实践参考了云溪大会上的分享:为大模型工程提效,基于阿里云 ACK 的云原生 AI 工程化实践[1],全文很长,我这边做一个牵引和解读。 1. 2. 大模型带来的挑战 AI有工程化的要求,同时也对基础设施提出挑战。 3. 云原生AI的能力 最近在做的“AI大模型基础设施”, 宏观目标也是帮助AI工程从小作坊向端到端云原生解决方案演进。 云原生AI的架构实践 我们的云原生AI算力平台, 有参考上面的实践,针对企业业务的现状和侧重, 技术调研上做了调整和裁剪。 kubeflow[2]是一个包含多个开源项目的AI生态组合, kubeflow以Kubernetes为底座,目标是成为部署、扩展和管理AI平台的系统。 糟糕,我实现的k8s informer好像是依托答辩 参考资料 [1] 为大模型工程提效,基于阿里云 ACK 的云原生 AI 工程化实践: https://developer.aliyun.com/article
2018 年底,vivo AI 研究院为了解决统一高性能训练环境、大规模分布式训练、计算资源的高效利用调度等痛点,着手建设 AI 计算平台。 经过两年的持续迭代,平台建设和落地取得了很大进展,成为 vivo AI 领域的核心基础平台。 架构设计 按照设计思路,如下是我们自动化设计的简单架构图,AutoRke 自动化平台是我们建设的目标,底层操作 k8s、calico 和 docker 等云原生基础组件的变更,上层对接 vivo 基础平台完成同步数据和流程控制等功能 白屏化阶段实现变更云原生组件平台化,制定标准流程,降低变更门槛和风险。 RKE CLI 定制化:在原生 rke 命令基础上,扩展了 calico 和 worker2 个子命令,分别负责 calico 容器网络管理和 k8s worker 节点扩缩容,这两个子命令支撑我们完成了大部分
创建对象 XMLHttpRequest 对象用于在后台与服务器交换数据 const xhr = new XMLHttpRequest(); //2. 初始化 设置请求方法和 url // 1)请求方式 2)请求地址 xhr.open('GET', 'http://127.0.0.1:8000/server (2开头的)成功 if (xhr.status >= 200 && xhr.status < 300) { // 创建对象 const xhr = new XMLHttpRequest(); //2. 设置【2秒没有结果,把请求做一个取消】 xhr.timeout = 2000; // 2、超时回调 取消请求后,做一个回调提示
一、产品定位与核心亮点 腾讯云TAPD(Tencent Agile Product Development)是一款基于容器化技术的云原生研发协作平台,核心定位为面向开发团队的高性能、智能化研发基础设施。 其差异化优势在于深度融合项目管理(需求/任务/缺陷跟踪)与工程实践(代码管理/持续集成/自动化测试),通过云原生架构与AI能力提升研发全流程自动化与协作效率。 自动化与AI能力:自动化规则引擎、AI代码助手、流程阻塞自动预警。 数据分析模块:研发效能度量看板、业务-研发数据整合分析。 计算资源:云原生构建CPU资源 6,400核时/月,云原生开发资源 64,000核时/月。 AI辅助开发:集成AI代码助手,提供智能代码建议与缺陷检测。 荣誉背书 (注:原文未提及具体荣誉奖项,此部分暂缺) 四、典型案例 (注:原文未提供具体客户案例名称及详细背景,仅强调平台能力。
[I] 概述 - NW.js原生界面(Native UI)APIs 要构建一个像样的桌面应用,除了由NodeJS处理底层功能,以及由Webkit来应付窗口GUI外,还需要诸如操作窗口、访问剪贴板或隐藏到系统托盘区等和系统图形界面交互的能力 var nw = require('nw.gui') 获取 新版本中直接访问全局成员 nw 即可 //获取当前窗口 var currentWindow = nw.Window.get();//基本上所有的原生界面对象都继承自 = new nw.MenuItem({ label: 'm2', submenu: new nw.Menu }); mitem2.submenu.append(new nw.MenuItem ({label: 'aaa2'})); mitem2.submenu.append(new nw.MenuItem({label: 'bbb2'})); mitem2.submenu.append(new 在NW.js里,同样的操作只是传递文件路径字符串而已,而非拷贝其内容;同时一些浏览器中的安全限制被解除,并赋予其一些增强的能力,从而使用户体验更接近原生应用 <input type="file" />
小米作为全球知名的科技巨头公司,已经在数百款产品中广泛应用了 AI 技术,这些产品包括手机、电视、智能音箱、儿童手表和翻译机等。这些 AI 应用主要都是通过小米的深度学习训练平台完成的。 另外,随着公司云原生化进程的推进,越来越多的应用从物理机迁移到容器平台,这进一步增加了对文件存储和多节点共享访问数据的需求。 我们预期中的存储平台需要具备如下特性: 功能丰富,拥有完善的存储功能,支持 POSIX 等多种访问协议,同时具备易用性,面向云原生平台设计。 优化2:S3 网关 社区版的 S3 网关可以与一个卷相对应,通常需要进行 Minio 的 AK/SK 配置。 基于这些产品能力及云原生 CSI Driver 的功能,我们已经对接了小米容器平台及机器学习 PaaS 平台,业务根据需要选择不同的集群与存储类型使用我们的 JuiceFS 文件存储服务。
一、技术架构设计原则基于行业验证的实践表明,高效科研教学基座需满足以下技术要求: 环境隔离性 • 采用Docker容器封装不同版本的Python包(如TensorFlow 1.x/2.x) • 通过Kata Containers实现硬件级隔离,保障生物信息学等敏感数据安全 • 技术实现:某容器管理平台通过CRI-O运行时接口,实现微秒级容器启动延时(实测值≤120ms) 资源弹性化 集群与公有云算力动态调配 • 调度算法:采用DRF(Dominant Resource Fairness)算法实现多维度资源调度,任务排队时间减少58% 工具可扩展性 • 通过Helm Chart规范AI pytorch/pytorch:2.0.1-cuda11.8-cudnn8-runtime" }}性能指标: • 支持200并发实例的在线IDE • GPU利用率稳定在85%±3%(波动标准差≤2.1)2. 个独立Python环境 • 资源监控:Prometheus采集间隔1s,监控指标包括GPU利用率、显存占用、温度等12个维度 • 质量评估:基于Pylint的静态分析使代码缺陷检出率提升40%场景2:
AI原生开发范式的核心概念 AI原生开发范式(AI-Native Development)指以AI为核心构建应用程序的设计方法,其特点包括数据驱动、模型即服务(MaaS)、自动化工作流和持续学习。 与传统开发相比,AI原生应用将机器学习模型作为基础组件,而非附加功能。 典型行业案例分析 金融领域-智能风控系统 某银行采用AI原生架构重构信贷审批流程,实现实时风险评估。 医疗领域-影像辅助诊断 一家医疗科技公司开发AI原生影像分析平台,整合多种医学影像模型(CT、MRI)。 平台支持DICOM标准,通过微服务架构实现模型热更新,肺结节检测准确率达到96%,较传统软件提升20%。 零售领域-动态定价引擎 某电商平台部署强化学习定价系统,每小时处理10TB用户行为数据。 model.predict_one(x) metric.update(y, y_pred) model.learn_one(x, y) print(f"Accuracy: {metric.get():.2f
SENSORY 的 SENSORYCLOUD.AI 平台获得 SOC 2 TYPE II 认证 Sensory 自豪地宣布,SensoryCloud.ai 平台已获得 SOC 2 Type II 认证— 什么是 SOC 2 II 类认证? SOC 2 Type II 认证是美国注册会计师协会 (AICPA) 制定的一套标准。 SensoryCloud 团队来自云安全背景,因此设计了我们以安全为基础的尖端 AI 平台。该认证表明我们符合最高的安全和隐私标准,并且我们正在采取必要的措施来保护客户数据。 总之 Sensory 宣布其 SensoryCloud AI 平台已获得 SOC 2 Type II 认证。 如果您想了解有关 SensoryCloud 的更多信息,请访问 SensoryCloud.ai 并立即注册免费试用 - https://sensorycloud.ai/free-credits/
跨平台开发鸿蒙原生应用 uniapp for HarmonyOS uni-app uni-app 是一个使用 Vue.js[1] 开发所有前端应用的框架,开发者编写一套代码,可发布到 HarmonyOS Flutter 介绍 Flutter 是谷歌的高性能、跨端 UI 框架,可以通过一套代码,支持 iOS、Android、Windows/MAC/Linux 等多个平台,且能达到原生性能。 Flutter 也可以与平台原生代码进行混合开发。在全世界,Flutter 正在被越来越多的开发者和组织使用,并且 Flutter 是完全免费、开源的。 原生性能:React Native 应用程序的业务逻辑是使用 JavaScript 编写的,但它可以调用原生平台提供的 API 和使用原生 UI 组件。 OpenHarmony 适配代码:接收并处理 React Common 传过来的数据,对接原生的代码,调用 ArkUI 的原生组件与 API。
对于系统开发人员来说(比如云数据库,云 AI 平台),云原生的趋势也会产生相应的影响。 具体的例子比如我们可以通过用户的数据查询看到经常使用的过滤维度,来重新安排数据的排序和分区,这样在同样的数据量情况下,系统可以花更少的计算资源来完成查询,增加系统的利润 :) 云原生+AI 最后再来看下跟 AI 相关的部分。 而前面讲的“云原生语言”,则更关注在程序具体执行层面的关注点分离。 把两者结合起来看,云原生时代的 AI 平台开发会是一片巨大的未开垦之地,对于云和算法各自都有很宽很长的路可以走。 通过算法来做自动的代码优化[2]等。 多租户情况下的联邦学习,多任务/元学习的可能性。
今天继续聊AI和大模型方面的话题。即什么是AI原生,如何构建一个真正意义上的AI原生系统? 对于这个问题,我们先看下AI大模型自己给出的答案。 架构层面 AI优先设计:架构围绕AI模型的训练、推理和持续学习来设计 数据驱动核心:数据流和AI模型是系统的中枢,而非辅助组件 动态适应性:系统能够根据AI模型的输出自动调整行为和决策 2. AI原生-大模型原生+知识原生+价值原生 一个系统能够称之为叫AI原生系统呢?这里面核心的一个关键就是整个系统核心的能力是架构在底层的AI大模型和底层的知识层上面的。 你如果满足这么一个条件,那你们做一个系统就可以叫做AI原生系统。 我原来谈AI原生的时候谈到过,AI原生核心是知识原生,为何你当前企业有数据库数据,有资料文档,不能快速的构建AI原生应用? 注意这个说法只解决了AI原生应用的大模型原生问题,并没有解决知识原生的问题。如果按这个说法所有的AI智能体应用都是AI原生应用,但是我的理解,AI原生应用的核心重点应该是在知识原生上面。
然而,如何构建一套完整的云原生 Serverless 平台,依然是一个需要考虑的问题。 因此,建设私有化的云原生Serverless平台需要企业在技术、资源、人才和经济等多方面进行全面的规划和考虑,确保平台的稳定性和可持续性。 一般情况下,我们认为一个云原生的 Serverless 平台应该提供以下能力: 弹性伸缩:平台应该支持应用自动扩缩容,以便应对变化的负载和流量。 Rainbond 作为一个开源的云原生应用管理平台,能够帮助企业应对建设私有化的云原生 Serverless 平台的难点。 写在最后 通过借助 Rainbond 建设私有化的云原生 Serverless 平台,企业能够更好地应对技术难点,提高平台的稳定性和可持续性。
##摘要 随着Data+AI融合成为企业数字化核心趋势,大数据平台需具备AI原生能力以应对智能化挑战。 Gartner报告指出,湖仓一体(Lakehouse)已成为数据平台新标准,而AI原生能力是其核心竞争壁垒。 AI原生能力需实现以下突破: 自然语言交互:支持NL2SQL技术,用户通过自然语言直接生成查询语句; 智能优化:基于AI的自动调优与资源分配,降低运维成本; 多模态数据处理:融合文本、图像等非结构化数据分析 二、腾讯云数据湖计算DLC的AI原生实践 基于腾讯云大数据团队在VLDB 2025发表的NL2SQL技术成果,DLC的AI原生能力体现在: 能力维度 功能实现 腾讯云数据湖计算DLC以Serverless架构、NL2SQL、智能调优等AI原生能力,为企业提供开放、高性能的一站式解决方案。
而进入2025年后,主导行业话语权的关键词已悄然换成了“智能驾驶”“AI大模型”“车载智能体”。 于是,“汽车智能体”(AI Agent)从幕后走向了台前。它不是传统意义上的语音助手,而是一个真正的“思考机器”。 理想试图将生成式AI融入车机,让车变得“更会聊天”;华为则依托鸿蒙生态,打通“人-车-家”的设备联动。它们无疑让车变得更聪明,但也带来一个新问题——生态的“围墙花园”。 以金智维Ki-AgentS为代表的平台化智能体方案,正代表了这个方向。它并非从车机语音另起炉灶,而是将其深厚的企业级智能体平台能力延伸至汽车座舱,从一开始就强调任务执行与生态兼容。 这也是像金智维这样的企业级智能体平台,在汽车领域迅速受到关注的核心原因。这一模式的好处是显而易见的:灵活与开放。
本文将结合云原生与AI的核心需求,对比主流竞品,给出可落地的选型建议与平台推荐方向。01. 新时代DevOps平台的核心能力要求在云原生与AI的浪潮下,一个优秀的DevOps平台不应仅仅是工具的集合,而应具备以下关键能力:1)云原生基因无缝集成 Kubernetes:平台需原生支持K8s,提供从部署 2)AI 赋能智能增效:AI助手(智能代码检查,故障诊断,自动生成测试用例等)集成,提升开发者效率。 2)Jenkins + 生态插件核心定位:灵活、开放的引擎和生态。云原生支持:高度依赖插件,灵活但需自行组装和维护,复杂度高。AI赋能:几乎无原生AI能力,依赖社区或自行集成外部AI服务。 在云原生与AI的浪潮下,DevOps平台的边界正在不断扩展。未来理想的平台,必然是既能提供开箱即用的一体化便利,又能通过开放API和AI智能实现高效、自主、安全的软件交付。
关于FATE FATE 是一个联邦学习的开源项目,旨在提供一个安全的计算框架来支持联合AI生态系统。它实现了多种安全计算协议,以实现符合数据保护法规的大数据协作。 Kubernetes 是目前最流行的基础设施平台,大量的实践证明,Kubernetes 很适合作为企业内部运维大规模分布式系统的平台。 我们团队也推荐 Kubernetes 作为运行 FATE 联邦学习集群生产环境的平台。KubeFATE 提供了在 Kubernetes 部署运维 FATE 的解决方案。 KubeFATE 主要由 VMware 中国研发中心云原生实验室、微众银行、社区用户共同参与开源贡献。 限于篇幅,更多关于KubeFATE 部署 FATE 配置参数的详细介绍,请查看这篇文章:联邦学习平台 KubeFATE 部署 FATE 的配置说明,或者点击阅读原文。
云原生架构下的日志平台方案 作者简介 Ford, 云原生布道师,云原生实验室(CloudnativeLab.COM)创始人 专注于云计算领域数年,目前主要从事容器云平台的建设,推进各类基础设施服务的云原生化 同时日志系统提供的也不再局限于应用系统的诊断,还包括业务、运营、BI、审计、安全等领域,日志平台最终的目标是实现公司在云原生架构下各个方面的数字化、智能化。 2、资源消耗,在原有的传统ELK架构中,基于 JDK 的 Logstash 和 Filebeat 预期分别会消耗500M、12M左右的内存,在微服务、云原生的架构下,服务通常都会拆的很小,因此数据采集对于服务自身的资源消耗要尽可能的少 3、日志平台的运维代价,运维一套动态环境下的日志采集和日志管理平台是复杂和繁琐的,日志平台应该SaaS话,作为底层基础设施,可一键部署和动态适配。 以下整理各方案的架构图: 图:方案1,应用内置采集组件,异步采集 [_u65B9_u68481_uFF0C_u5E94_u7528.png] 图:方案2,Pod伴侣容器,Sidercar模式 [_u65B9
作为一个全功能的平台即服务(PaaS), App Platform 解决了从开发到 Kubernetes 支持的高度可扩展和弹性的云原生部署的操作方面的问题,同时保持了尽可能简单的用户体验。 应用类型检测、构建和运行由云原生构建包 Cloud Native Buildpacks 处理(最近成为了 CNCF 孵化器项目,祝贺!?)。 我们借鉴了 Kubernetes 的核心原则,并将其带到应用平台的集群层面。 一旦新的集群准备就绪,我们就可以指示应用平台协调器开始安全地将应用迁移到它们。 检测和构建 应用平台与开发者相遇。 总结 应用平台将所有这些技术结合在一起,消除了大多数应用程序无法达到的复杂性和运营投资,以最小的用户努力提供了一流的云原生平台。应用平台是建立在巨人的肩膀上。