写完上次的 MLOps 主题文章后,接下来计划写一篇机器学习与云原生结合的文章。不过个人在这块的经验并不多,还在各种学习和素材积累中。今天先来闲聊一些最近一阵子对云原生这个火热话题的一些发散性遐想。 对于系统开发人员来说(比如云数据库,云 AI 平台),云原生的趋势也会产生相应的影响。 具体的例子比如我们可以通过用户的数据查询看到经常使用的过滤维度,来重新安排数据的排序和分区,这样在同样的数据量情况下,系统可以花更少的计算资源来完成查询,增加系统的利润 :) 云原生+AI 最后再来看下跟 而前面讲的“云原生语言”,则更关注在程序具体执行层面的关注点分离。 把两者结合起来看,云原生时代的 AI 平台开发会是一片巨大的未开垦之地,对于云和算法各自都有很宽很长的路可以走。 目前云原生跟 AI 结合的一个比较好的学习样例是 Kubeflow,之前春节期间读了一本《Kubeflow for Machine Learning[3]》,感觉收获还是挺多的,如Istio,CRD的应用等
: ---- 前言:12月19日,在 Cloud Native Days China -云原生AI大数据专场,腾讯技术事业群高级工程师薛磊发表了《云原生AI平台的加速与实践》主题演讲。 ? 演讲主要包含五部分的内容: Kubernetes介绍 AI离线计算 AI场景下Kubernetes的不足 Kubeflow 星辰算力平台的架构 Kubernetes介绍 K8s是生产级的容器编排系统,它也是云原生应用最佳的一个平台 每个组件提供了单独的能力,所有的组件我们可以认为是与apiserver通信,发现自己的工作,并且做一些额外的修改,然后提交到apiserver。所以它整个的框架是即插即用的,并且具有良好的扩展性。 Horovod 吸取了 Facebook 的 Training ImageNet in 1 Hour(一小时训练 ImageNet) 论文与百 度 Ring Allreduce 的优点,为用户实现分布式训练 提供TensorFlow原生PS-worker架构 的多机训练 推荐将PS和worker一起启动 通过service做服务发现 在社区中最早期的Operator 星辰算力平台的架构 它为私有云的一个离线计算平台
云原生应用 云原生应用是天然适合云特点的应用,云原生应用系统需要与操作系统等基础设施分离,不应该依赖Linux或Windows等底层平台,或依赖某个云平台。 云原生应用和本地部署应用程序之间的差异 云原生应用程序开发采用与传统企业应用程序完全不同的体系结构。 可更新 云原生应用程序始终是最新的,云原生应用始终可用。 本地部署应用程序需要更新,并且通常由供应商按订阅提供,并且在安装更新时需要停机。 弹性 云原生应用程序通过在峰值期间增加的资源来利用云的弹性。 连接资源 本地部署应用程序与网络资源的连接相当严格,例如网络,安全性,权限和存储。其中许多资源需要进行硬编码,如果移动或更改了任何内容,它们就会中断。 “网络和存储在云端完全不同。 云原生应用程序更加模块化,许多功能分解为微服务。这允许在不需要时关闭它们,并将更新推广到那个模块,而不是整个应用程序。 无状态 云的松耦合特性意味着应用程序与基础架构无关,这意味着它们是无状态的。
一、产品定位与核心亮点 腾讯云TAPD(Tencent Agile Product Development)是一款基于容器化技术的云原生研发协作平台,核心定位为面向开发团队的高性能、智能化研发基础设施。 其差异化优势在于深度融合项目管理(需求/任务/缺陷跟踪)与工程实践(代码管理/持续集成/自动化测试),通过云原生架构与AI能力提升研发全流程自动化与协作效率。 计算资源:云原生构建CPU资源 6,400核时/月,云原生开发资源 64,000核时/月。 数据驱动效能分析:整合项目管理与工程数据,提供可视化度量看板(如发布计划跟踪、效率指标)。 AI辅助开发:集成AI代码助手,提供智能代码建议与缺陷检测。 数据来源:腾讯云TAPD官方产品介绍文档 特权说明:企业版用户(购买License ≥ 10)可申请长期有效的云原生构建与开发资源特权,需通过在线咨询核实后发放。
并且会大量使用Spring Cloud Netflix相关的模块与代码。 因此,我们去梳理一下Spring Cloud的前世今生,以及未来云原生发展的趋势,可以给这些RPC框架的演进带来一些启发。 3、Spring Cloud与云原生 3.1 特性差异 首先,Spring Cloud认为自己还是比较符合云原生的 from https://github.com/spring-cloud/spring-cloud-commons 云原生环境下,容器化运行,多云部署,使得微服务不再关注到底是什么技术栈,python、c++、Nodejs都可以非常容易在云原生环境下运行。 Spring Cloud全家桶肯定能满足java体系下的微服务一站式设计与实现,这点毋庸置疑。 当然,问题主要还是在云原生下,多语言的治理能力会有所缺失。 与Spring Cloud体系一样闻名的Dubbo体系,我们已经可以看到dubbo 3.x从 Mesh 到 Proxyless 对云原生的全面拥抱。
并且会大量使用Spring Cloud Netflix相关的模块与代码。 因此,我们去梳理一下Spring Cloud的前世今生,以及未来云原生发展的趋势,可以给这些RPC框架的演进带来一些启发。 3、Spring Cloud与云原生 3.1 特性差异 首先,Spring Cloud认为自己还是比较符合云原生的 from https://github.com/spring-cloud/spring-cloud-commons 云原生环境下,容器化运行,多云部署,使得微服务不再关注到底是什么技术栈,python、c++、Nodejs都可以非常容易在云原生环境下运行。 Spring Cloud全家桶肯定能满足java体系下的微服务一站式设计与实现,这点毋庸置疑。 当然,问题主要还是在云原生下,多语言的治理能力会有所缺失。 与Spring Cloud体系一样闻名的Dubbo体系,我们已经可以看到dubbo 3.x从 Mesh 到 Proxyless 对云原生的全面拥抱。
腾讯云原生与智能工具链解决方案 TKE Serverless容器采用超级节点架构,免去节点运维,实现秒级资源拉起与释放,支持游戏服、平台服混合部署。 Dawn分布式光照烘焙系统基于GPU加速,支持大世界自动拆分与云烘焙。GenesisTex AI皮肤生成工具通过多视角一致性算法实现3D模型贴图自动生成。 成本显著降低:TDSQL-C Serverless助力某游戏平台降低数据库成本40%+(来源:腾讯云数据库产品经理陈昊);开心消消乐采用英特尔第五代至强服务器实现AI推理性能提升3倍+(来源:英特尔联合测试 技术领先性与行业认可 腾讯云TKE Serverless通过CNCF认证,支持Agones、OpenKruise等开源生态,提供游戏服定向运维能力。 英特尔®至强®处理器提供AMX AI加速引擎,助力游戏AI推理性能提升3-10倍。腾讯图形团队专利算法在多项学术对比中保持渲染质量与效率领先(来源:国际图形学会议评测)。
过去的一段时间和一些架构师 / 技术负责人聊天,云原生和企业上云是最近一段架构演进的一个常见话题,那么小公司到大型公司在上云和云原生上有什么价值和收益呢。 云原生技术的里程碑 ? 将技术层抽象到云原生层,技术组件的更新换代对业务架构透明,可以更快的进行技术换代而不影响业务架构。 抽象的云原生层持续的组件服务演进,可以提供更好可用性,稳定性的基础设施。 云原生如何落地 可以基于公有云或私有云平台,通过云平台,云中间件,面向微服务,容器编排调度,及Devops流程优化等关键字进行整合,提升业务团队研发效率和质量,帮助业务降低风险,实现更快的交付。 针对以上问题,我们可以得出云原生架构演进方向和需要提升的点。聚焦于微服务,中间件,DevOps这三个方向,结合云弹性来推动架构演进。 ? 优化微服务架构 建立服务开发规范,向云原生靠齐。 借助一些工具看数据迁移的效果与质量,比如数据异构,关系数据库与缓存中间件,数据库binlog解析实现增量数据订阅与消费,数据不停机迁移,业务影响最小化。 ?
nacos-config-spring-boot-starter 实现配置的动态变更; 通过 Nacos Server 和 nacos-discovery-spring-boot-starter 实现服务的注册与发现
在最近的几年里,云原生技术呈现如下几个明显的发展趋势: 趋势1 :软硬一体化:传统基础设施的网络、存储、计算能力与云原生技术生态开始深度对接。 今年,我们又联合多家单位共同开源了多云容器编排项目Karmada,与产业伙伴一起共建云原生多云的开源标准。 而在基础设施层,我们在运行时、网络、存储、异构设施等方面也都广泛参与或开放了多个开源项目,将华为云在基础设施层的丰富积累与社区共享,共同促进Kubernetes以及CNCF云原生社区的快速创新与发展。 而为了更好地支撑现代化应用以及统一的基础技术平台,下层的各类设备包括虚拟化计算/网络/存储、裸金属服务器以及专用芯片如AI、高性能网络、高性能存储等等都会与K8s更紧密的配合,围绕云原生应用,通过软硬一体化的方案来提供更高性能 与“应用、平台、设备”三个层面的协同,意味着云原生技平台将真正成为 以“应用”为中心的云“OS”。
背景云原生(CloudNative)是一个组合词,“云”表示应用程序运行于分布式云环境中,“原生”表示应用程序在设计之初就充分考虑到了云平台的弹性,就是为云设计的。 腾讯云也制定了自己的云原生成熟度模型:图片图片腾讯云的成熟度模型,主要从研发效能和资源效能2个方面引导内部云原生建设。 云小微团队结合云小微现状以及公司云原生成熟度标准1.0和2.0的导向,横向对比业界做法,重点在云原生5大核心能力上进行了建设:服务化、可观测性、韧性、弹性、自动化能力,并逐步提升可调度能力。 图片图片特色与沉淀AI大数据模型服务启动速度慢是个行业通性问题。通过上述的建设,云小微的AI大数据模型服务,扩容速度从10分钟左右,优化到5分钟以内,命中缓存时可以达到1分钟左右。 当然随着对云原生的实践越来越多,我们也发现云小微在云原生的资源利用率、可调度性等方面建设和实践相对比较薄弱。接下来我们也将继续云原生的实践,不断完善自身的薄弱点,更好地服务客户和合作伙伴。
张望,腾讯高级工程师,从事云上 GPU 和分布式训练加速,负责腾讯云 TKE 在 AI 场景的研发和支持工作。 不仅各大公有云厂商都已经基本收录或集成了 Kubeflow 的训练 operators,社区上其他与深度学习训练相关的项目(如用以自动机器学习的 Katib,又如提供自动化编排功能的 Flyte)都对接了 进展与近期规划 当前融合已经正式并入 tf-operator 的 master 分支。 我们希望未来利用 Kubeflow Training Operator 来构建 AI 平台的开发者可以方便地将其与其他模块对接,实现诸如任务队列、流水线、超参数搜索等功能。 资源利用率提高67%,腾讯实时风控平台云原生容器化之路 Getting Started and Beyond|云原生应用负载均衡选型指南 被集群节点负载不均所困扰?
在教育数字化转型背景下,高校教学与科研正面临工具链碎片化、算力资源调度复杂化、跨学科协作困难等挑战。 本文通过解析模块化技术基座的构建方法,探讨多模态大模型与学科工具的协同机制,并结合典型技术方案说明其实现路径。 实现硬件级隔离,保障生物信息学等敏感数据安全 • 技术实现:某容器管理平台通过CRI-O运行时接口,实现微秒级容器启动延时(实测值≤120ms) 资源弹性化 • 基于Kubernetes构建混合云资源池 ,支持本地GPU集群与公有云算力动态调配 • 调度算法:采用DRF(Dominant Resource Fairness)算法实现多维度资源调度,任务排队时间减少58% 工具可扩展性 • 通过Helm Chart规范AI工具部署流程,支持自定义Operator扩展学科专用组件 • 案例验证:某高校利用开源编排工具实现量子计算模拟器的自动化部署,环境准备时间从3小时缩短至8分钟二
而在这场变革的背后,AI与云原生区块链技术宛如两颗璀璨的明星,交相辉映,为元宇宙的构建提供了不可或缺的关键支撑。 云原生区块链技术以其独特的加密算法和共识机制,为元宇宙的数据安全与隐私保护提供了全方位的解决方案。区块链采用非对称加密技术,为每个用户生成唯一的公私钥对。 AI与云原生区块链融合,开启元宇宙的“无限可能”AI与云原生区块链技术在元宇宙的构建中各有优势,二者的融合将产生更为强大的协同效应,为元宇宙的发展带来无限可能。 在元宇宙的应用场景中,AI与云原生区块链的融合将创造出更加丰富和精彩的体验。 AI与云原生区块链技术作为元宇宙构建的关键支撑,正以其强大的技术实力和创新能力,引领着元宇宙的发展潮流。
Kagent 架构详解 ❝本文档阐述 Kagent 的云原生设计理念——将 Agent 定义为 Kubernetes CRD,使其成为集群的一等公民❞ 目录 1. 这不是简单地"把 Agent 跑在 K8s 上",而是深度融入 Kubernetes 的资源模型,让 Agent 天然具备云原生基础设施的所有能力。 AI Agent 框架,它将 Agent 定义为 Kubernetes CRD(Custom Resource Definition),让用户可以像管理 Deployment 一样管理 Agent。 Agent 作为 CRD 可以直接继承这些能力: 能力 CRD 方案 收益 调度与编排 Scheduler 开箱即用 零开发成本 自动扩缩容 HPA/VPA 原生支持 弹性伸缩 配置管理 ConfigMap 自动接入 Kubernetes 可观测性生态: ┌─────────────────────────────────────────────────────────┐ │ 云原生可观测性栈
随着云原生与微服务技术的逐步发展,业界也逐步构建出一整套比较完整的微服务技术体系。 面向云原生时代,微服务架构是从业人员绕不开的一个话题,腾讯云AI&腾讯优图的内容风控安全审核能力也与微服务技术息息相关。 01.什么是云原生 上图是CNCF对云原生的定义,从字面意义上来讲,cloud native就等于cloud+native。简单来说,云原生代表着因云而生。 云原生应用有着复杂的服务拓扑,服务网格保证请求在这些拓扑中可靠地穿梭。在实际应用当中,服务网格通常是由一系列轻量级的网络代理组成的,它们与应用程序部署在一起,但对应用程序透明。 可添加云AI小助手,加入云AI产品、技术、认证等相关社群 回复【云梯计划】可了解更多TCA腾讯云人工智能从业者认证限时免费相关信息 回复【产品手册】可获得最新腾讯云AI产品及解决方案手册
而在这场变革的背后,AI与云原生区块链技术宛如两颗璀璨的明星,交相辉映,为元宇宙的构建提供了不可或缺的关键支撑。 云原生区块链技术以其独特的加密算法和共识机制,为元宇宙的数据安全与隐私保护提供了全方位的解决方案。 区块链采用非对称加密技术,为每个用户生成唯一的公私钥对。 AI与云原生区块链融合,开启元宇宙的“无限可能” AI与云原生区块链技术在元宇宙的构建中各有优势,二者的融合将产生更为强大的协同效应,为元宇宙的发展带来无限可能。 在元宇宙的应用场景中,AI与云原生区块链的融合将创造出更加丰富和精彩的体验。 AI与云原生区块链技术作为元宇宙构建的关键支撑,正以其强大的技术实力和创新能力,引领着元宇宙的发展潮流。
因此,企业亟需一份清晰的DevOps平台推荐逻辑 —— 既要匹配云原生与AI的核心需求,又要贴合自身业务规模与技术生态。 本文将结合云原生与AI的核心需求,对比主流竞品,给出可落地的选型建议与平台推荐方向。01. 新时代DevOps平台的核心能力要求在云原生与AI的浪潮下,一个优秀的DevOps平台不应仅仅是工具的集合,而应具备以下关键能力:1)云原生基因无缝集成 Kubernetes:平台需原生支持K8s,提供从部署 云原生支持:高度依赖插件,灵活但需自行组装和维护,复杂度高。AI赋能:几乎无原生AI能力,依赖社区或自行集成外部AI服务。 开放性与集成:与微软系产品无缝集成,但对非微软生态的支持相对较弱。企业级特性:依托Azure云,在企业级安全、合规和高可用方面有坚实基础。在云原生与AI的浪潮下,DevOps平台的边界正在不断扩展。
构建贴近Agent的AI原生云Infra 腾讯云推出Agent Infra解决方案,以“更贴近Agent的AI原生云”为核心,包含六大能力模块: Agent运行引擎:会话隔离、Serverless架构 (HAI分钟拉起满血模型)、云原生调度编排(TKE&qGPU)、Cloud Mate云专家服务智能体。 客户通过Agent云沙箱、Cloud Mate等模块,实现Agent运行环境安全隔离与运维效率提升。 腾讯云的技术领先性与行业认可 选择腾讯云的核心优势在于技术确定性与行业验证: 自研技术矩阵:TACO-LLM/TACO-DIT推理加速引擎、HAI高性能推理集群、Cloud Mate智能运维体、OrcaTerm AI原生远程终端(支持脚本生成、命令纠错); 权威认证:获Gartner Generative AI Specialized Cloud Infrastructure亚太第一评级;2024年Frost
在云原生时代,微服务因 “高内聚、低耦合、可弹性扩展” 的特性成为主流架构,而 Go 语言(Golang)凭借 “编译快、性能强、原生支持并发、轻量级部署” 的优势,成为开发微服务的首选语言之一。 本文将从基础概念出发,带你从零搭建一个完整的 Go 微服务(用户管理服务),涵盖 “项目初始化、核心功能开发、API 设计、容器化、服务发现” 全流程,帮你掌握云原生微服务的核心实践。 云原生:为云环境设计的应用,支持 “容器化部署、弹性伸缩、动态服务发现”,核心是 “适应云的动态性”。 总结通过本文,你已掌握 Go 微服务的核心开发流程:从 “环境准备→分层开发→容器化→接口测试”,实现了一个可运行的云原生应用。 后续可基于此框架扩展功能(如用户登录、权限控制),或引入云原生工具链,逐步构建企业级微服务集群。