文章目录 边缘计算:数据处理的新时代 应用领域 挑战与机遇 量子计算:超越传统计算的新范式 量子比特 应用前景 挑战与机遇 人工智能:云计算的动力 云中的AI 应用领域 挑战与机遇 结语 欢迎来到云计算技术应用专栏 ~云计算未来展望:边缘计算、量子计算与AI ☆* o(≧▽≦)o *☆嗨~我是IT·陈寒 ✨博客主页:IT·陈寒的博客 该系列文章专栏:云计算技术应用 其他专栏:Java学习路线 Java面试技巧 人工智能:云计算的动力 人工智能(AI)一直是云计算的重要驱动力,它将继续引领云计算的未来。AI技术已经在图像识别、自然语言处理、语音识别和推荐系统等领域取得了巨大成功。 云中的AI 云计算提供了强大的计算能力和大规模数据存储,这对于训练和部署AI模型至关重要。云提供商如亚马逊、微软和谷歌都提供了AI服务,开发者可以轻松地在云上构建和部署AI应用程序。 此外,AI模型的训练和部署也需要大量的计算资源,这为云提供商提供了商机。 云计算将继续推动AI的发展,而AI也将进一步推动云计算的创新。这两者之间的相互作用将塑造未来技术的面貌。
上一篇文章简单了解计算机中常用几种微分方式。本文将深入介绍 AI 框架离不开的核心功能:自动微分。 前向梯度累积会指定从内到外的链式法则遍历路径,即先计算 dw_1/dx ,再计算 dw_2/dw_1 ,最后计算 dy/dw_2 。即,前向模式是在计算图前向传播的同时计算微分。 前向模式 Foward Mode 前向模式从计算图的起点开始,沿着计算图边的方向依次向前计算,最终到达计算图的终点。它根据自变量的值计算出计算图中每个节点的值以及其导数值,并保留中间结果。 反向模式的缺点: 需要额外的数据结构记录正向过程的计算操作,用于反向使用; 带来了大量内存占用,为了减少内存操作,需要 AI 框架进行各种优化,也带来了额外限制和副作用。 因此,目前大部分 AI 框架都会优先采用反向模式,但是也有例如 MindSpore 等 AI 框架同事支持正反向的实现模式。
计算与调度计算与调度的来源图像处理在当今物理世界中是十分基础且开销巨大的计算应用。图像处理算法在实践中需要高效的实现,尤其是在功耗受限的移动设备上。 于 AI 框架而言,所开发的算子是网络模型中涉及到的计算函数。 AI 编译器优化的目的在于通过对算子进行最佳调度,使得算子在特定硬件上的运行时间达到最优水平。这种优化涉及到对算子调度空间的全面搜索和分析,以确定最适合当前硬件架构的最佳调度方案。 Reorder(交换)、Split(拆分)、Fuse(融合)、Tile(平铺)、Vector(向量化)、展开(Unrolling)、并行(Parallelizing)等,以 Halide 思想为指导的 AI 计算节点:调度树的叶子,表示正在执行的计算。计算节点可以有其他计算节点作为子节点,以表示内联函数而不是从中间存储加载。
在前面的文章曾经提到过,目前主流的 AI 框架都选择使用计算图来抽象神经网络计算表达,通过通用的数据结构(张量)来理解、表达和执行神经网络模型,通过计算图可以把 AI 系统化的问题形象地表示出来。 本文将会以 AI 概念落地的时候,遇到的一些问题与挑战,因此引出了计算图的概念来对神经网络模型进行统一抽象。接着展开什么是计算,计算图的基本构成来深入了解诶计算图。 最后简单地学习 PyTorch 如何表达计算图。AI 系统化问题遇到的挑战在真正的 AI 工程化过程中,我们会遇到诸多问题。 因此派生出了目前主流的 AI 框架都选择使用计算图来抽象神经网络计算。计算图的定义我们会经常遇到有些 AI 框架把统一的图描述称为数据流图,有些称为计算图,这里可以统称为计算图。 ,需要加上损失函数:根据正向的神经网络模型定义,AI 框架中的计算图如下:上面 (a) 中计算图具有两个节点,分别代表卷积 Conv 计算和激活 ReLU 计算,Conv 计算接受三个输入变量 x 和权重
CPU 算力 算力(Computational Power),即计算能力,是计算机系统或设备执行数值计算和处理任务的核心能力。 操作与数据加载的平衡点 为了平衡计算和数据加载,每从内存中加载一个数据,需要执行 80 次计算操作。这种平衡点确保了计算单元和内存带宽都能得到充分利用,避免了计算资源的浪费或内存带宽的瓶颈。 超级计算机算力计算 假设有一个超级计算机,有 10000 个 CPU,每个 CPU 有 8 个核心,每个核心的时钟频率为 2.5 GHz,每个时钟周期可以执行 16 次浮点运算。 这一概念在计算机科学中至关重要,尤其在高性能计算领域。操作强度衡量的是计算与内存访问之间的关系。操作强度越高,意味着处理器在处理数据时进行更多计算操作,而不是频繁访问内存。 图片 训练 AI 大模型的变化趋势 这张图展示了训练 AI 大模型所需时间随模型参数数量的变化趋势,纵轴表示训练时间,单位从“天”(Days)到“周”(Weeks)再到“月”(Months);横轴表示模型参数的数量
量子计算 + AI:科幻照进现实?说到量子计算,很多人第一反应可能是:“这玩意儿离我们还远着呢吧?” 确实,量子计算现在还处于早期发展阶段,但如果你是个AI开发者,或者对计算加速有需求,那你真的应该关注它。量子计算可能成为未来AI训练和推理的“加速器”,帮助我们在海量数据中找到最优解。 今天,我就来带大家初探量子计算如何加速AI算法,不仅讲理论,还动手写点代码,让大家感受一下量子的魅力!为什么AI需要更快的计算能力?在AI领域,尤其是深度学习模型,训练时间是一个大问题。 量子计算利用量子纠缠和叠加,可以在一次计算中同时处理多个状态的数据。这就意味着,量子计算可能在某些AI任务上实现指数级加速!量子计算如何加速AI?1. 实战演示:用量子计算优化AI训练我们来用量子计算模拟一个简单的AI优化任务,看看它能否比传统方法更快收敛。
CPU(中央处理器)是计算机的核心组件,其性能对计算机系统的整体性能有着重要影响。CPU 计算时延是指从指令发出到完成整个指令操作所需的时间。 理解 CPU 的计算时延对于优化计算性能和设计高效的计算系统至关重要。在本文中我们将要探讨 CPU 的计算时延组成和影响时延产生的因素,并深入讨论 CPU 计算的时延产生。 CPU 计算时延 下面将介绍 CPU 计算延时的组成和影响计算时延的相关因素。 这些传播延迟就是 CPU 的时钟周期,也是 CPU 计算的时延。 计算速度因素 计算速度由多个因素决定,包括内存时延、缓存命中率、计算操作效率和数据写回速度。 直到数据加载完成,CPU 无法进行后续的计算操作。 计算过程的阻滞 高内存时延显著延缓了整个计算过程的启动。
而现在特别火爆的AI,用到的所谓“AI芯片”,也主要是指它们。 █ CPU(中央处理器) 先说说大家最熟悉的CPU,英文全称Central Processing Unit,中央处理器。 CPU vs GPU █ GPU与AI计算 大家都知道,现在的AI计算,都在抢购GPU。英伟达也因此赚得盆满钵满。为什么会这样呢? 原因很简单,因为AI计算和图形计算一样,也包含了大量的高强度并行计算任务。 深度学习是目前最主流的人工智能算法。从过程来看,包括训练(training)和推理(inference)两个环节。 GPU凭借自身强悍的并行计算能力以及内存带宽,可以很好地应对训练和推理任务,已经成为业界在深度学习领域的首选解决方案。 目前,大部分企业的AI训练,采用的是英伟达的GPU集群。 目前,他们市值高达1.22万亿美元(英特尔的近6倍),是名副其实的“AI无冕之王”。 那么,AI时代的计算,是不是GPU一家通吃呢?我们经常听说的FPGA和ASIC,好像也是不错的计算芯片。
在 AI 框架发展的最近一个阶段,技术上主要以计算图来描述神经网络。 这两种选择,随着神经网络算法研究和应用的更进一步发展,使得 AI 框架在技术实现方案的巨大差异。 复杂的模型结构需要 AI 框架能够对模型算子的执行依赖关系、梯度计算以及训练参数进行快速高效的分析,便于优化模型结构、制定调度执行策略以及实现自动化梯度计算,从而提高 AI 框架训练的效率。 综上所述,目前主流的 AI 框架都选择使用计算图来抽象神经网络计算表达,通过通用的数据结构(张量)来理解、表达和执行神经网络模型,通过计算图可以把 AI 系统化的问题形象地表示出来。 在基于计算图的 AI 框架中,这五个阶段统一表示为由基本算子构成的计算图,算子是数据流图中的一个节点,由后端进行高效实现。
计算图优化是一种重要的技术,主要目标是提高计算效率和减少内存占用,通常由 AI 框架的编译器自动完成,通过优化,可以降低模型的运行成本,加快运行速度,提高模型的运行效率,尤其在资源有限的设备上,优化能显著提高模型的运行效率和性能 计算图优化现在来到了核心内容,离线优化模块的计算图优化。早在本文之前,AI 编译器的前端优化已经讲述了很多计算图优化相关的内容。 但这些是基于 AI 框架实现的且通常出现于训练场景中,主要原因在于在在线训练的过程中。实验时间的要求相对宽松,所以可以引入较多的 GIT 编译或者是其他编译。 而在推理引擎计算图的优化中,更多的是采用预先写好的模板,而不是通过 AI 编译去实现的。 Layout & Memory: 布局转换优化,主要是不同 AI 框架,在不同的硬件后端训练又在不同的硬件后端执行,数据的存储和排布格式不同。
AI发展 未来能摆脱云计算吗? 的确,现在人工智能AI技术的火爆程度不亚于任何一项IT新技术的宣传力度,我们也不可否认,人工智能背后所依靠的就是云计算平台的强大支撑,很多AI的具体需要依靠云计算平台当中边缘计算去完成,但是,现在AI在应用部署过程当中仍然受限制于边缘计算的成本层面以及设备只能分析能力等很多方面 因此,边缘计算成为AI相关芯片厂商、设备集成商的布局重点也就不足为奇了,更直接带动边缘计算在2017年的快速崛起。 2 边缘计算的另一面 虽然边缘计算拥有前文我们所说的那些有点,但是由于当前在智能分析能力以及数据应用的法律合规性等方面的限制,使得边缘计算现在仍然还处于一个缓慢发展的阶段,采用边缘计算的AI设备单价比较高 边缘计算兴起不仅带动了AI芯片的销量,也会促使相关的硬件市场规模进一步扩大。可以预见,一旦所有终端设备都能实现边缘计算的话,其市场必会远远超越云计算。
目前,人工智能的主要方向如图像识别、语音识别等等都是通过机器学习的方式,借助强大的计算平台对海量数据进行分析、计算,随着数据量的增长,单机性能已逐渐无法满足计算的需求,需要使用高性能计算(HPC, High HPC集群是将多个计算节点组织在一起协同计算的分布式系统,它一般使用iWARP/RoCE/IB等RDMA(Remote Direct Memory Access)技术来完成计算节点内存间数据的快速交换。 同时,网络作为HPC集群的一部分,任何传输阻滞都会造成计算资源的浪费。为了最大化集群计算能力,通常要求网络在10us内完成RDMA流量的传递。 腾讯AI计算网络 腾讯AI计算网络属于生产网络的一部分,除了需要与其他网络模块通信,还需要对接网管、安全等后台系统,因此只能选择与现网兼容的以太网方案。 计算网络中的计算节点作为资源池供整个公司各部门共同使用,这就使得网络面临着多业务流量并发拥塞的问题。
而AI和海量计算力分不开,绝艺每天的盘数计算量都在亿级,王者每天计算结果均在百T,这些业务源源不断的计算力均来自腾讯架平TCS-弹性计算平台。 二、CPI 弹性平台中的设备都是在线业务与计算业务混部,尤其是AI计算,cpu时间片可完全吃满,利用率持续100%,但利用率反映的是当前机器在某个时间点的运行情况,并不能用于度量程序指令的cpu消耗,因此弹性平台需量化一个指标反映每条程序指令的执行耗时 四、调度 运行中的AI运算,持续的吃cpu时间片,虽然Linux采用了CFS公平调度策略,但存储引擎与AI计算混部竞争,相比于单跑存储引擎,增加了调度和现场恢复等时延消耗。 现网运营中还发现,AI计算火力全开时(如下图),存储引擎偶尔会出现获取cpu时间片不够的情况。 动态调整 监控到cpi异常,平台优先调低AI计算的quota值,调整采用“乘性减 加性增”策略,将quota值降一半,限制AI容器的cpu时间片分配,若一段时间内,cpi监控未检测到异常,平台加性恢复AI
在 AI 框架发展的最近一个阶段,技术上主要以计算图来描述神经网络。 这两种选择,随着神经网络算法研究和应用的更进一步发展,使得 AI 框架在技术实现方案的巨大差异。 复杂的模型结构需要 AI 框架能够对模型算子的执行依赖关系、梯度计算以及训练参数进行快速高效的分析,便于优化模型结构、制定调度执行策略以及实现自动化梯度计算,从而提高 AI 框架训练的效率。 综上所述,目前主流的 AI 框架都选择使用计算图来抽象神经网络计算表达,通过通用的数据结构(张量)来理解、表达和执行神经网络模型,通过计算图可以把 AI 系统化的问题形象地表示出来。 在基于计算图的 AI 框架中,这五个阶段统一表示为由基本算子构成的计算图,算子是数据流图中的一个节点,由后端进行高效实现。
视频ai智能分析边缘计算盒可以配备为在施工工地现场监测到违规事件时开启即时警报,并伴随時间的变化收集数据,将其展示为历史时间数据图表、图型或热点图。 视频ai智能分析边缘计算盒与传统的的视频监管方式对比,传统式的视频监管方式 通常必须手动式分析很多的视频流,视频ai智能分析边缘计算盒可以协助工作员在必须付诸行动时过虑有关事情并发送报警。 视频ai智能分析边缘计算盒还能够与人脸识别技术和身体鉴别技术相结合。 视频ai智能分析边缘计算盒接入前端第三方监控摄像头视频流数据开展分析,视频ai智能分析边缘计算盒会将分析出来的结果向三方平台推送预警信息照片、视频和警报统计数据,完成各种各样连接。
a = [0.1, 0.2, 0.3, 0.4] = [a_1, a_2] 融合算子替换 某些复杂的算子在一些 AI 框架上可能没有直接实现,而是通过一系列基本算子的组合来实现。 计算相似度得分:通过 Q、K 两个矩阵计算相似度得分,得到注意力权重矩阵。注意力权重矩阵的大小为 n * n,计算该矩阵的时间复杂度为 O(n^2 * d * h) 。 kernel,每个 kernel 的计算过程都存在从 HBM 读取数据,计算完成后还要写回 HBM。 同时要保证在计算过程中要尽量的利用 SRAM 进行计算,避免访问 HBM 操作 然而,我们都知道虽然 SRAM 的带宽较大,但其计算可存储的数据量较小。 根据前向过程重新计算对应 block 的 S 和 P;按分块矩阵的方式分别计算对应梯度,完成参数更新。
CPU(中央处理器)是计算机的核心组件,其性能对计算机系统的整体性能有着重要影响。CPU 计算时延是指从指令发出到完成整个指令操作所需的时间。 理解 CPU 的计算时延对于优化计算性能和设计高效的计算系统至关重要。在本文中我们将要探讨 CPU 的计算时延组成和影响时延产生的因素,并深入讨论 CPU 计算的时延产生。 CPU 计算时延 下面将介绍 CPU 计算延时的组成和影响计算时延的相关因素。 这些传播延迟就是 CPU 的时钟周期,也是 CPU 计算的时延。 计算速度因素 计算速度由多个因素决定,包括内存时延、缓存命中率、计算操作效率和数据写回速度。 直到数据加载完成,CPU 无法进行后续的计算操作。 计算过程的阻滞 高内存时延显著延缓了整个计算过程的启动。
这种针对特定领域优化的计算单元激增,对推动AI持续快速发展至关重要。超越以太网:专用互联的崛起这些专用系统通常需要"全对全"通信,具备太比特每秒带宽和接近本地内存速度的纳秒级延迟。 这种向紧密集成、以计算为中心的网络转变,对于克服通信瓶颈和高效扩展下一代AI至关重要。突破内存墙几十年来,计算性能的增长速度一直超过内存带宽的增长。 这些对协调和功率的极端需求正在推动对前所未有计算密度的需求。最小化处理器之间的物理距离对于降低延迟和功耗变得至关重要,为新型超密集AI系统铺平道路。 更可持续的能源方法当前和未来,电力供应是扩展AI计算的关键瓶颈。虽然传统系统设计专注于每芯片的最大性能,但我们必须转向专注于每瓦特大规模交付性能的端到端设计。 应对时刻:下一代AI基础设施的集体努力生成式AI的崛起不仅仅是一次进化,更是一场需要彻底重新构想我们计算基础设施的革命。
计算机视觉是一门研究如何对数字图像或视频进行高层理解的交叉学科。 据说人一生中70%的信息都是通过看获得的,很容易联想到,对于致力于和人类一样拥有智能的AI也很看重看得能力。 实际上,计算机视觉的技术在生活的方方面面都有着应用,如指纹识别、车牌识别、人脸识别、视频监控、自动驾驶、增强现实等。 视觉任务处理对人类来说非常简单,但是对计算机来说确很复杂。 尽管计算机视觉任务繁多,但大多数任务本质上可以建模为广义的函数拟合问题。即对任意输入图像X,需要学习一个以Θ为参数的函数F,使得y=F0(X)。 除此之外,基于深度学习的计算机视觉应用也比较多,神经网络之类的方法在计算机视觉上的应用还是比较广的。 比如现在应用比较广的人脸识别技术,仅从步骤上来说,也就是简单的几个步骤: 第一步,人脸检测。 尽管深度学习给计算机视觉带来了很多革命性的改变,但是目前的计算机视觉领域还是一个以来大规模、强监督的数据路线上。从这个角度上来说,计算机视觉可能更像一个劳动密集型的产业,大量依赖于数据标注。
一、背景 互联网产业拥抱AI成为了当下的热潮:无人驾驶、医疗AI和智能推荐从实验室走出,融入到工程实业中;腾讯自主研发的王者荣耀等游戏AI给人们带去了快乐,“绝艺”更是获得了UEC杯冠军;而AI和海量计算力分不开 二、CPI 弹性平台中的设备都是在线业务与计算业务混部,尤其是AI计算,cpu时间片可完全吃满,利用率持续100%,但利用率反映的是当前机器在某个时间点的运行情况,并不能用于度量程序指令的cpu消耗,因此弹性平台需量化一个指标反映每条程序指令的执行耗时 四、调度 运行中的AI运算,持续的吃cpu时间片,虽然Linux采用了CFS公平调度策略,但存储引擎与AI计算混部竞争,相比于单跑存储引擎,增加了调度和现场恢复等时延消耗。 现网运营中还发现,AI计算火力全开时(如下图),存储引擎偶尔会出现获取cpu时间片不够的情况。综上,弹性平台监控存储引擎的cpi标准差,当偏差超过限定的范围,即为异常计算点,平台执行调整或调度操作。 动态调整 监控到cpi异常,平台优先调低AI计算的quota值,调整采用“乘性减 加性增”策略,将quota值降一半,限制AI容器的cpu时间片分配,若一段时间内,cpi监控未检测到异常,平台加性恢复AI