对于系统开发人员来说(比如云数据库,云 AI 平台),云原生的趋势也会产生相应的影响。 具体的例子比如我们可以通过用户的数据查询看到经常使用的过滤维度,来重新安排数据的排序和分区,这样在同样的数据量情况下,系统可以花更少的计算资源来完成查询,增加系统的利润 :) 云原生+AI 最后再来看下跟 AI 相关的部分。 而前面讲的“云原生语言”,则更关注在程序具体执行层面的关注点分离。 把两者结合起来看,云原生时代的 AI 平台开发会是一片巨大的未开垦之地,对于云和算法各自都有很宽很长的路可以走。 目前云原生跟 AI 结合的一个比较好的学习样例是 Kubeflow,之前春节期间读了一本《Kubeflow for Machine Learning[3]》,感觉收获还是挺多的,如Istio,CRD的应用等
背景云原生(CloudNative)是一个组合词,“云”表示应用程序运行于分布式云环境中,“原生”表示应用程序在设计之初就充分考虑到了云平台的弹性,就是为云设计的。 腾讯云也制定了自己的云原生成熟度模型:图片图片腾讯云的成熟度模型,主要从研发效能和资源效能2个方面引导内部云原生建设。 云小微团队结合云小微现状以及公司云原生成熟度标准1.0和2.0的导向,横向对比业界做法,重点在云原生5大核心能力上进行了建设:服务化、可观测性、韧性、弹性、自动化能力,并逐步提升可调度能力。 图片图片特色与沉淀AI大数据模型服务启动速度慢是个行业通性问题。通过上述的建设,云小微的AI大数据模型服务,扩容速度从10分钟左右,优化到5分钟以内,命中缓存时可以达到1分钟左右。 当然随着对云原生的实践越来越多,我们也发现云小微在云原生的资源利用率、可调度性等方面建设和实践相对比较薄弱。接下来我们也将继续云原生的实践,不断完善自身的薄弱点,更好地服务客户和合作伙伴。
张望,腾讯高级工程师,从事云上 GPU 和分布式训练加速,负责腾讯云 TKE 在 AI 场景的研发和支持工作。 不仅各大公有云厂商都已经基本收录或集成了 Kubeflow 的训练 operators,社区上其他与深度学习训练相关的项目(如用以自动机器学习的 Katib,又如提供自动化编排功能的 Flyte)都对接了 我们希望未来利用 Kubeflow Training Operator 来构建 AI 平台的开发者可以方便地将其与其他模块对接,实现诸如任务队列、流水线、超参数搜索等功能。 9月10日上午11点,由作者选出回答最佳的5位读者,送定制T恤一件。 资源利用率提高67%,腾讯实时风控平台云原生容器化之路 Getting Started and Beyond|云原生应用负载均衡选型指南 被集群节点负载不均所困扰?
: ---- 前言:12月19日,在 Cloud Native Days China -云原生AI大数据专场,腾讯技术事业群高级工程师薛磊发表了《云原生AI平台的加速与实践》主题演讲。 ? 演讲主要包含五部分的内容: Kubernetes介绍 AI离线计算 AI场景下Kubernetes的不足 Kubeflow 星辰算力平台的架构 Kubernetes介绍 K8s是生产级的容器编排系统,它也是云原生应用最佳的一个平台 典型的AI计算框架 1)Tensorflow TensorFlow 是由 Google Brain 团队为深度神经网络(DNN)开发的功能强大的开源软件库,于 2015 年 11 月首次发布,在 Apache 分布式AI计算 为什么要分布式AI计算? 提供TensorFlow原生PS-worker架构 的多机训练 推荐将PS和worker一起启动 通过service做服务发现 在社区中最早期的Operator 星辰算力平台的架构 它为私有云的一个离线计算平台
Kagent 架构详解 ❝本文档阐述 Kagent 的云原生设计理念——将 Agent 定义为 Kubernetes CRD,使其成为集群的一等公民❞ 目录 1. 这不是简单地"把 Agent 跑在 K8s 上",而是深度融入 Kubernetes 的资源模型,让 Agent 天然具备云原生基础设施的所有能力。 AI Agent 框架,它将 Agent 定义为 Kubernetes CRD(Custom Resource Definition),让用户可以像管理 Deployment 一样管理 Agent。 /Secret 安全可审计 权限控制 RBAC 原生支持 企业级安全 服务发现 Service/DNS 自动注册 故障恢复 Controller 自动协调 秒级自愈 监控告警 Prometheus 生态 自动接入 Kubernetes 可观测性生态: ┌─────────────────────────────────────────────────────────┐ │ 云原生可观测性栈
kubectl exec 是 Kubernetes 的命令行工具 kubectl 中的一个子命令。它的主要功能是在指定的 Pod 中执行命令。也就是说,您可以通过 kubectl exec 与 Pod 中的容器进行交互,执行命令。
2020年11月 VOL:07 腾小云告诉你最前线的产品新特性, 总有一款让你心动~ 云说新品 容器产品新特性 11月上新 腾讯云边缘服务TKE@Edge 从中心云管理边缘云资源的容器系统 边缘容器服务 云研新术 技术优化点 云原生大数据 《腾讯大数据云原生与在离线混合部署方案》荣获2020年度十大云原生创新技术 早前,在2020年7月可信云大会上腾讯云大数据云原生就已荣获评年度技术最佳实践~ 趁着人不多,这里秘籍赶紧看一下哦——连夺双奖,腾讯云大数据云原生究竟凭什么? Cherry 键盘和 Airpodspro 等你拿~ 对面的写作小能手看过来~腾讯云原生面向广大云原生技术爱好者推出征文计划,凡符合活动规则并通过征选的文稿,将会被发布在腾讯云原生的微信公众号及各大社区相关专栏 :TKEplatform) 拉你入技术交流群, 和更多小伙伴一起交流云原生 汇聚腾讯云原生技术 云说新品、云研新术、云游新活、云赏资讯 x -END-
什么是云原生? 云原生(Cloud Native)是由 Pivotal 的Matt Stine在2013年提出的一个概念,是他多年的架构和咨询总结出来的一个思想的集合。 云原生应用 云原生应用是天然适合云特点的应用,云原生应用系统需要与操作系统等基础设施分离,不应该依赖Linux或Windows等底层平台,或依赖某个云平台。 CNCF给出了云原生应用的三大特征: 容器化封装:以容器为基础,提高整体开发水平,形成代码和组件重用,简化云原生应用程序的维护。 云原生应用和本地部署应用程序之间的差异 云原生应用程序开发采用与传统企业应用程序完全不同的体系结构。 可更新 云原生应用程序始终是最新的,云原生应用始终可用。 本地部署应用程序需要更新,并且通常由供应商按订阅提供,并且在安装更新时需要停机。 弹性 云原生应用程序通过在峰值期间增加的资源来利用云的弹性。
一、产品定位与核心亮点 腾讯云TAPD(Tencent Agile Product Development)是一款基于容器化技术的云原生研发协作平台,核心定位为面向开发团队的高性能、智能化研发基础设施。 其差异化优势在于深度融合项目管理(需求/任务/缺陷跟踪)与工程实践(代码管理/持续集成/自动化测试),通过云原生架构与AI能力提升研发全流程自动化与协作效率。 计算资源:云原生构建CPU资源 6,400核时/月,云原生开发资源 64,000核时/月。 云原生构建能力:基于容器化技术,支持高并发构建与缓存优化,提升编译效率。 自动化流水线:通过规则引擎自动触发流程(如代码提交→构建→测试→部署),减少手动操作。 数据来源:腾讯云TAPD官方产品介绍文档 特权说明:企业版用户(购买License ≥ 10)可申请长期有效的云原生构建与开发资源特权,需通过在线咨询核实后发放。
给近半年做的云原生AI算力平台做一个回顾, 思考和实践参考了云溪大会上的分享:为大模型工程提效,基于阿里云 ACK 的云原生 AI 工程化实践[1],全文很长,我这边做一个牵引和解读。 1. 面对LLM和GAI这类对算力和数据都有极高需求的新负载,云计算也迎来了“智算”时代, 一方面以服务化资源池的概念提供万卡算力、PB级存储、和单机TB级高速网络互联,另一方面以云原生标准化交付算力给大模型的生产者和使用者 大模型带来的挑战 AI有工程化的要求,同时也对基础设施提出挑战。 3. 云原生AI的能力 最近在做的“AI大模型基础设施”, 宏观目标也是帮助AI工程从小作坊向端到端云原生解决方案演进。 云原生AI的架构实践 我们的云原生AI算力平台, 有参考上面的实践,针对企业业务的现状和侧重, 技术调研上做了调整和裁剪。 糟糕,我实现的k8s informer好像是依托答辩 参考资料 [1] 为大模型工程提效,基于阿里云 ACK 的云原生 AI 工程化实践: https://developer.aliyun.com/article
云原生安全发展可谓方兴未艾,云原生环境中的各类安全风险日益频发,云上的对抗也成为现实,越来越多的企业开始探讨如何设计、规划云原生环境中的安全架构,部署相应的安全能力。 云原生安全的现在和未来如何,笔者不妨从一个较高的视角进行探讨。 与云计算安全相似,云原生安全也包含两层含义:“面向云原生环境的安全”和“具有云原生特征的安全”。 笔者看来,前者是必经之路,可以说是阶段1,而随着面向云原生的安全越来越成熟,将会迸发出极大的驱动力来构建具有云原生特征的安全能力,进入阶段2,当然这还远不够,原生安全才是云原生安全的终篇。 1 面向云原生环境的安全 总体而言,云原生安全的第一阶段是安全赋能于云原生体系,即构建云原生的安全能力。 面向云原生环境的安全,其目标是防护云原生环境中的基础设施、编排系统和微服务等系统的安全。 既然未来云安全等价安全,而云计算的下半场是云原生,那不妨也做个推论,云原生的未来也会等价于原生安全。
而率先完成 DevOps 转型 的企业在进行 云原生 应用改造和技术革新过程中也面临着同样的问题。 这就对 DevOps 在云原生环境下的应用提出了新的课题和实践诉求,我们如何在云原生的环境下实践 DevOps 以达到更有生产力的表现? 本文将结合最新一期的技术雷达,试图勾画出 DevOps 在云原生的环境下的特性、未来的趋势以及相应的实践。 背景:不断蔓延的云环境复杂性 本期技术雷达主题之一是:不断蔓延的云环境复杂性。 但在云原生的场景下,我们无需去构造工具链,因为工具链本身是为最佳实践服务的。我们只需要根据自己的实践选择对应的服务就可以了,不光包含云平台自身的,也包括外部的。 在云原生的场景下,全球的竞争加速了技术实践的淘汰,有生命力的工具和服务在市场上生存了下来。并和它们所服务的客户一起创造了更加有生命力的技术实践。
什么是云原生 设计目的 云原生软件的设计目的是预测故障,并且即使当它所依赖的基础设施出现故障,或者发生其他变化时,它也依然能够保持稳定运行。 定义 云原生软件是高度分布式的,必须在一个不断变化的环境中运行,而且自身也在不断地发生变化 不适合使用云原生架构的情形 不需要云计算的软件,例如嵌入到家电中的软件。 云原生提供的是最终一致性,但如果需要数据强一致性的话,云原生架构就不适用了。 用云原生架构重写软件时并没有提供新的价值 云原生的价值 云原生的绝妙之处在于它最终是由许多不同组件组成的,即使其中一些组件的模式不是最新的,云原生组件也可以与他们进行交互。 云原生平台 云原生平台的发展 AWS:软件架构、开发和运维并没有太多的改变。
云原生概念12个因素 简介 如今,软件通常会作为一种服务来交付,它们被称为网络应用程序,或软件即服务(SaaS)。 适合部署在现代的云计算平台,从而在服务器和系统管理方面节省资源。 将开发环境和生产环境的差异降至最低,并使用持续交付实施敏捷开发。 可以在工具、架构和开发流程不发生明显变化的前提下实现扩展。 云原生应用的12要素,原文 The Twelve Factors I. 相反的,应该借助操作系统的进程管理器(例如 Upstart ,分布式的进程管理云平台,或是类似 Foreman 的工具),来管理 输出流 ,响应崩溃的进程,以及处理用户触发的重启和关闭超级进程的请求。
在本节课程中,我们将开始学习如何从攻击者的角度思考,一起探讨常见的容器和K8s攻击手法,包含以下两个主要内容: 云原生环境的攻击路径: 了解云原生环境的整体攻击流程。 云原生攻防矩阵: 云原生环境攻击路径的全景视图,清晰每一步采取的攻击技术。 目前,多个云厂商和安全厂商都已经梳理了多个针对容器安全的威胁矩阵,我们可以参考这些成熟的模型,结合个人对云原生安全的理解,构建自己的攻防矩阵。 针对云原生环境的攻击技术,与传统的基于Windows和Linux的通用攻击技术有很大的不同,在这里,我们梳理了一个针对容器和K8s常见攻击技术的云原生攻防矩阵。 视频版:《云原生安全攻防》--云原生攻防矩阵
云端存储和微服务架构以及现在的云原生技术都是在实现编程范式的设计理念。云原生是设计师的技术定义规范。云原生技术的具体实现方式在不同的区域会有不同的实现产品落地。 云桌面在现在的大众社会并不存在。互联网社会网络交通十分发达,本地存储可以节省很多的人力物力资源空间。云端存储的数据需要有大型的服务器集群提供服务。无服务架构是一种服务端节点部署机器的集群搭建。 云原生技术是现在很多的不同互联网公司的产品发布定义。Springboot的启动框架构建需要有原生开发团队的维护支持。AI的技术实现在海量数据存储和实现服务方面为当地的社区提供不同的数据技术团队。 构建项目的云服务需要在项目组本地部署实现。云原生技术在远程,在本地部署推广。领域驱动模型的设计构建方式是产品设计是的一种云原生的实现方案。 本地部署的方式有利于系统的原生落地。不同的区域的服务和数据都会根据用户的使用反馈进行变更和迁移。数据服务的开发需要有大型的机器集群和数据节点的服务基础设施的搭建。
本文主要分享了 VContainer 云原生相关基础组件的自动化实践,从半工具化人工维护,到白屏化流程的实践和落地。 和其他云原生项目一样,rke 也使用 golang 开发,是一个命令行工具。 白屏化阶段实现变更云原生组件平台化,制定标准流程,降低变更门槛和风险。 后续计划 自动化初期实现了云原生基础组件日常运维管理工作的白屏化功能,提高了工作效率,降低操作风险,一定程度上提高了基础组件的稳定性。 在今后自动化建设过程中,我们希望丰富自动化的功能,探索半智能化方向,重点关注云原生基础组件稳定性和可用性方面的自动化建设。
云原生历史 etcd性能优化 调度 Operator
在互联网与云计算技术发展的日新月异过去五年中,应用研发人员对效率与敏捷的极致追求,终于把业界带进了一个崭新的云原生时代。 而云原生理念的迅速普及,火了 Docker,红了 Kubernetes ,也间接让一个编程语言成为了如今服务端的“当家花旦”。不消多讲,这位在云原生领域里正红的发紫的“角儿”,就是 Golang。 基于这样一个引擎,平台团队可以快速、高效地以 Kubernetes 原生的方式在 KubeVela 中植入任何来自云原生社区的应用管理能力,从而基于 KubeVela 打造出自己需要的云原生平台,比如: 云原生数据库 PaaS、云原生 AI 平台、甚至 Serverless 服务。 ”为核心的云原生应用层项目。
译者序 云原生是一种行为方式和设计理念,究其本质,凡是能够提高云上资源利用率和应用交付效率的行为或方式都是云原生的 云原生应用追求的是快速构建高容错性、弹性的分布式应用,追求极致的研发效率和友好的上线与运维体验 ServiceMesher社区 ---- 第1部分 云原生上下文 1 什么是“云原生” ChaosKong演习 Netflix如何能够恢复得如此之快? 区域对应地理地区,而可用区在单个区域内提供进一步的冗余和隔离 云原生软件的设计目的是预测故障,并且即使当它所依赖的基础设施出现故障,或者发生其他变化时,它也依然能够保持稳定运行 让面向失败的设计成为它们构建 这些需求,以及对一个运行这些软件的新平台的需求,直接导致了一种新的软件架构风格的出现,即云原生软件 图1.4用户对软件的需求推动云原生架构和相应管理方式的发展 图1.5从架构和管理方面我们理解了云原生软件的核心特征 这是云原生软件的口头禅,我希望你在阅读本书的过程中能够时刻谨记 面向失败设计最基本的模式之一,是实现回退的方法,即当主逻辑失败时执行的代码。