首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏亨利笔记

    Google TPU 101

    谷歌TPU为何“杀疯了”?》描绘了谷歌 TPU 大战英伟达 GPU 的“神仙打架”场面。刚好,我的老朋友 Grissom 写了一篇超硬核的TPU技术深潜文,把背后的门道拆解得明明白白。 TPU 芯片 ≠ TPU 系统:从单卡到 TPU Pod 3.1 TPU 的 scale-first 设计 TPU 在设计之初就假设模型会持续变大,多芯片协同训练是常态而不是例外。 3.3 Cloud TPU 部署模型与拓扑细节 在 Cloud TPU 上,Google 提供的是以 TPU VM 为基础的编程模型 [2]。 在 TPU 上,不存在很多开发者已经习惯的概念,例如「TPU Kernel」、「TPU shared memory」或「TPU launch configuration」。 TPU 的优势、限制与适用边界 6.1 TPU 的“甜点区” 综合硬件和软件的取舍,TPU 的「甜点区」非常清晰 [1,2]: • 大模型训练:尤其是 Transformer 类模型,在大规模 Pod

    46410编辑于 2026-01-07
  • 来自专栏大数据和云计算技术

    似懂非懂Google TPU

    谷歌的这款芯片被称作 Tensor Processing Unit,简称 TPU,是Google专门为深度学习定制的芯片。 第一次出现是在2016年的Google I/O大会上,最近在体系结构顶级会议 ISCA 2017 上面,描述 TPU 的论文被评为最佳论文,让TPU又火了一把。 不适合训练,适合做推断,TPU是一种ASIC,先用GPU训练神经网络,再用TPU做推断。 • 一个TPU的MAC是Tesla K80的25倍,片上内存容量达到K80的3.5倍,而且体积更小。 Jouppi说,虽然 TPU 有很多矩阵乘法单元,但 TPU 比“GPU 在思路上更接近浮点单元协处理器”,TPU 没有任何存储程序,仅执行从主机发送的指令。

    1.6K60发布于 2018-03-08
  • 来自专栏do it

    Paper: Google TPU

    TPU 架构 TPU被设计成一个协处理器,通过PCI-E总线与CPU进行数据交换,同时,TPU自己不会主动去内存中取指令,所有运行指令都是CPU通过PICE主动发送到TPU的指令缓存buffer中去执行 ,所以其实TPU其实更像是一个单纯的计算单元协处理器。 [tpu-arct.png] TPU的核心是 256*256的矩阵运算单元,能够计算8bit的整数乘法及加法。 TPU使用了4级的流水线,来充分利用矩阵运算单元。TPU中,计算和存储单元占据了接近70%的面积,控制单元仅有2%。 [perf.png] [perf-figure.png] 功耗 谷歌的数据显示,能耗比GPU和CPU高出很多 [pw.png] TPU设计调整 结果是TPU很吃内存带宽,带宽提高4倍,性能能提高三倍。

    1.7K40发布于 2021-05-08
  • 来自专栏AutoML(自动机器学习)

    TPU使用说明

    1 TPU分类和收费标准 1.1 分类和计费说明 地区 抢占式TPU Cloud TPU 美国 \$1.35/hour \$4.5/hour 欧洲 \$1.485/hour \$4.95/ hour 亚太区地区 \$1.566/hour \$5.22/hour 抢占式 TPU 是 Cloud TPU 在需要将资源分配给另一项任务时,可以随时终止(抢占)的 TPU。 抢占式 TPU 的费用要比普通 TPU 低廉得多。 TPU 以 1 秒钟为增量单位进行计费。 为了连接到 TPU,我们必须配置一台虚拟机(单独结算)。要注意的是虚拟机和TPU是分别计费的。 也就是说仅在启动 TPU 之后,Cloud TPU 的计费才会开始;在停止或删除 TPU 之后,计费随即停止。 抢占式 TPU 的费用是每小时 $1.35,而非普通 TPU 的每小时 $4.50。

    4.4K00发布于 2019-05-26
  • 来自专栏算法channel

    灵魂三问 TPU

    v3 就是第三代 (2018) TPU,样子如下。 而第一代 (2015) 和第二代 (2017) 的 TPU 样子如下 。 查了下第三代 TPU 每个核心的价格是每小时 8 美元。 WHY:为什么 TPU 在神经网络上有效? HOW:怎么玩 TPU + Keras? 1 WHAT TPU 是什么? 最后看看专门为矩阵计算设计的 TPU? 1.4 TPU TPU 是 google 专门为大型神经网络里面的大型矩阵运算而设计的,因此不是通用处理器。 try block 里面分别检测出 TPU,并创建 TPU 分布式策略,然后用 keras_to_tpu_model 来将 model 装成 tpu_model。 之后就可以愉快的训练模型了。

    2.5K20发布于 2019-07-10
  • 来自专栏AutoML(自动机器学习)

    TPU使用说明

    1 TPU分类和收费标准 1.1 分类和计费说明 地区 抢占式TPU Cloud TPU 美国 \$1.35/hour \$4.5/hour 欧洲 \$1.485/hour \$4.95/ hour 亚太区地区 \$1.566/hour \$5.22/hour 抢占式 TPU 是 Cloud TPU 在需要将资源分配给另一项任务时,可以随时终止(抢占)的 TPU。 抢占式 TPU 的费用要比普通 TPU 低廉得多。 TPU 以 1 秒钟为增量单位进行计费。 为了连接到 TPU,我们必须配置一台虚拟机(单独结算)。要注意的是虚拟机和TPU是分别计费的。 也就是说仅在启动 TPU 之后,Cloud TPU 的计费才会开始;在停止或删除 TPU 之后,计费随即停止。 抢占式 TPU 的费用是每小时 $1.35,而非普通 TPU 的每小时 $4.50。

    2K30发布于 2018-10-16
  • 来自专栏Python与算法之美

    使用TPU训练模型

    如果想尝试使用Google Colab上的TPU来训练模型,也是非常方便,仅需添加6行代码。 在Colab笔记本中:修改->笔记本设置->硬件加速器 中选择 TPU 注:以下代码只能在Colab 上才能正确执行。 可通过以下colab链接测试效果《tf_TPU》: https://colab.research.google.com/drive/1XCIhATyE1R7lq6uwFlYlRsUr5d9_-r1s % return(model) 三,训练模型 #增加以下6行代码 import os resolver = tf.distribute.cluster_resolver.TPUClusterResolver(tpu ='grpc://' + os.environ['COLAB_TPU_ADDR']) tf.config.experimental_connect_to_cluster(resolver) tf.tpu.experimental.initialize_tpu_system

    1.2K20发布于 2020-07-20
  • 来自专栏大数据和云计算技术

    似懂非懂Google TPU 2.0

    前面刚学习了Google的第一代TPU,写了篇《似懂非懂Google TPU》,很多朋友一起讨论,纷纷议论说好像也不是很牛逼?怎么可能,Google在技术上还是很有追求的。 这还没过几个月,Google CEO Sundar Pichai 在 5月18日I/O 大会上正式公布了第二代 TPU,又称 Cloud TPUTPU 2.0,继续来看下TPU 2.0有什么神奇之处 新的 TPU 包括了 4 个芯片,每秒可处理 180 万亿次浮点运算。 Google 还找到一种方法,使用新的电脑网络将 64 个 TPU 组合到一起,升级为所谓的TPU Pods,可提供大约 11,500 万亿次浮点运算能力。 ? 除了速度,第二代 TPU 最大的特色,是相比初代 TPU 它既可以用于训练神经网络,又可以用于推理。

    1.1K40发布于 2018-03-08
  • 来自专栏AutoML(自动机器学习)

    TPU使用说明

    1 TPU分类和收费标准 1.1 分类和计费说明 地区 抢占式TPU Cloud TPU 美国 $1.35/hour $4.5/hour 欧洲 $1.485/hour $4.95/hour 亚太区地区 $1.566/hour $5.22/hour 抢占式 TPU 是 Cloud TPU 在需要将资源分配给另一项任务时,可以随时终止(抢占)的 TPU。 抢占式 TPU 的费用要比普通 TPU 低廉得多。 TPU 以 1 秒钟为增量单位进行计费。 为了连接到 TPU,我们必须配置一台虚拟机(单独结算)。要注意的是虚拟机和TPU是分别计费的。 也就是说仅在启动 TPU 之后,Cloud TPU 的计费才会开始;在停止或删除 TPU 之后,计费随即停止。 = tpu.rewrite(axy_computation, inputs) tpu_grpc_url = TPUClusterResolver( tpu=[os.environ['TPU_NAME

    2.6K20发布于 2018-10-22
  • 来自专栏OpenFPGA

    【科普】什么是TPU?

    芯片的其余部分很重要,值得一试,但 TPU 的核心优势在于它的 MXU——一个脉动阵列矩阵乘法单元。 TPU的其余部分 上面设计了出色的脉动阵列,但仍有大量工作需要构建支持和基础部分以使其运行。 TPUv1 的系统图和布局模型 主机接口将通过 PCIe 连接到加速器(TPU)。 它将您的 TF 图转换为线性代数,并且它有自己的后端可以在 CPU、GPU 或 TPU 上运行。 Pods Google云中的 TPU 存在于“pod”中,它们是具有大量计算能力的大型机架。 单个 TPU 通常不足以以所需的速度训练大型模型,但训练涉及频繁的权重更新,需要在所有相关芯片之间分配。 TPU发展历史 结论 这是我能找到有关TPU工作原理的所有信息,可能她并不完整,但是我希望你明白了TPU的工作原理。 TPU 是一个非常好的硬件,但它可能在 v1 出现之前就已经存在多年了。

    4.7K20编辑于 2022-06-06
  • 来自专栏磐创AI技术团队的专栏

    PyTorch实现TPU版本CNN模型

    XLA将CNN模型与分布式多处理环境中的Google Cloud TPU(张量处理单元)连接起来。在这个实现中,使用8个TPU核心来创建一个多处理环境。 用PyTorch和TPU实现CNN 我们将在Google Colab中实现执行,因为它提供免费的云TPU(张量处理单元)。 import os assert os.environ['COLAB_TPU_ADDR'] 如果启用了TPU,它将成功执行,否则它将返回‘KeyError: ‘COLAB_TPU_ADDR’’。 你也可以通过打印TPU地址来检查TPUTPU_Path = 'grpc://'+os.environ['COLAB_TPU_ADDR'] print('TPU Address:', TPU_Path) ?

    1.6K10发布于 2020-08-11
  • 来自专栏AI系统

    【AI系统】谷歌 TPU 历史发展

    TPU 是谷歌为加速机器学习任务而设计的专用集成电路(ASIC),自首次推出以来,TPU 经历了多次迭代升级,包括 TPU v1、v2、v3 和 v4,以及 Edge TPU 和谷歌 Tensor 等产品 TPU 芯片与产品历代 TPU 芯片以下表格是不同 TPU 芯片型号的具体参数和规格,TPU 系列会主要围绕 v1, v2, v3, v4 这一系统去展开。 Pod 的图片,比较有代表性的是左上角的 TPU v2 Pod,右上角的 TPU v3 Pod 和左下角的 TPU v4 Pod。 TPU v3 概览TPU v3 相较于其前身 TPU v2 有了显著的提升。这一代 TPU 在晶体管数量上增加了 11%,同时在时钟频率、互连带宽和内存带宽上实现了 1.35 倍的提升。 TPU v4 概览2021 年,谷歌推出了 TPU 系列的最新升级 TPU v4,从 16 纳米缩减至 7 纳米,芯片数量是 TPU v3 的四倍,可以说是谷歌在 TPU 制程工艺上最大的一次更新。

    1.9K10编辑于 2024-11-27
  • 来自专栏数据分析与挖掘

    【tensorflow2.0】使用TPU训练模型

    如果想尝试使用Google Colab上的TPU来训练模型,也是非常方便,仅需添加6行代码。 ='grpc://' + os.environ['COLAB_TPU_ADDR']) tf.config.experimental_connect_to_cluster(resolver) tf.tpu.experimental.initialize_tpu_system INFO:tensorflow:Found TPU system: INFO:tensorflow:Found TPU system: INFO:tensorflow:*** Num TPU Cores TPU Workers: 1 INFO:tensorflow:*** Num TPU Cores Per Worker: 8 INFO:tensorflow:*** Num TPU Cores Per :TPU:0, TPU, 0, 0) INFO:tensorflow:*** Available Device: _DeviceAttributes(/job:worker/replica:0/task

    1.5K20发布于 2020-08-26
  • 来自专栏AI SPPECH

    75_TPU集成:Google Cloud加速

    Google Cloud Console创建TPU虚拟机 选择TPU类型:根据需求选择合适的TPU版本和配置 配置网络:设置适当的网络配置,确保TPU VM可以访问必要的资源 连接到TPU VM:使用SSH 连接到创建的TPU虚拟机 以下是使用gcloud命令行创建TPU VM的示例: # 创建单个TPU v4虚拟机 gcloud compute tpus tpu-vm create tpu-vm-name 管理TPU配额:确保项目有足够的TPU配额用于训练任务 优化资源使用:根据实际需求调整TPU资源配置,避免资源浪费 以下是监控TPU资源的示例命令: # 查看TPU状态 gcloud compute tpus tpu-vm describe tpu-vm-name --zone=us-central2-b # 查看TPU性能指标 gcloud compute tpus tpu-vm logs tpu-vm-name 分布式训练与TPU Pod架构 8.1 TPU Pod架构概述 TPU Pod是Google设计的大规模TPU集群架构,专为分布式训练大型机器学习模型而优化。

    70610编辑于 2025-11-16
  • 来自专栏海风

    Simple TPU的设计和性能评估

    谷歌的张量处理单元(Tensor Processing Unit,后文简称TPU)是完成较早,具有代表性的一类设计,TPU采用基于脉动阵列设计的矩阵计算加速单元,可以很好的加速神经网络的计算。 本系列文章将利用公开的TPU V1相关资料,对其进行一定的简化、推测和修改,来实际编写一个简单版本的谷歌TPU,以更确切的了解TPU的优势和局限性。 1. 完成SimpleTPU的设计 在 谷歌TPU概述和简化中给出过SimpleTPU的框图,如下图所示。 ? 在 TPU中的指令并行和数据并行中对整个处理单元的体系结构进行了分析和论述,包括指令并行和数据并行两个方面。 那么,如何在TPU中的指令并行和数据并行中提到的设计思路下,将TPU中的脉动阵列及其实现和神经网络中的归一化和池化的硬件实现中提到的计算单元充分的利用,是完成Simple TPU设计的最后一部。

    80220发布于 2019-07-31
  • 来自专栏海风

    TPU中的脉动阵列及其实现

    本系列文章将利用公开的TPU V1相关资料,对其进行一定的简化、推测和修改,来实际编写一个简单版本的谷歌TPU,以更确切的了解TPU的优势和局限性。 本文将对TPU中的矩阵计算单元进行分析,并给出了SimpleTPU中32×32的脉动阵列的实现方式和采用该阵列进行卷积计算的方法,以及一个卷积的设计实例,验证了其正确性。 脉动阵列和矩阵计算 脉动阵列是一种复用输入数据的设计,对于TPU中的二维脉动阵列,很多文章中构造了脉动阵列的寄存器模型,导致阅读较为困难,而实际上TPU中的二维脉动阵列设计思路十分直接。 如上图所示,右侧是一个乘加单元的内部结构,其内部有一个寄存器,在TPU内对应存储Weight,此处存储矩阵B。 类似TPU中的设计,采用INT8作为计算阵列的输入数据类型,为防止计算过程中的溢出,中间累加结果采用INT32存储。

    3.2K32发布于 2019-07-31
  • 来自专栏海风

    TPU中的指令并行和数据并行

    本系列文章将利用公开的TPU V1相关资料,对其进行一定的简化、推测和修改,来实际编写一个简单版本的谷歌TPU,以更确切的了解TPU的优势和局限性。 TPU微架构的描述。 从数据流和计算单元出发对TPU进行分析固然容易很多,但如果想理解TPU的设计思想,依旧需要回到其架构设计上进行分析。这一部分内容有些超出了我现有的能力,不当之处还请多多指正。 TPU的指令集 TPU的指令集采用CISC设计,共计有十多条指令,主要的五条指令包括 Read_Host_Memory 将数据从CPU的内存中读取到TPU的Unified Buffer上 Read_Weights TPU论文中介绍其采用四级流水线设计,Simple TPU中采用了两级流水线,来完成控制过程。

    2.6K20发布于 2019-07-31
  • 来自专栏镁客网

    谷歌TPU芯片:AlphaGo背后的神秘力量

    TPU一直是谷歌的秘密武器,皮查伊表示该芯片曾被用于驱动AlphaGo人工智能,后者打败了顶级围棋选手李世石。看来,TPU性能的优越性已经稍有体现了。 皮查伊没有就TPU的具体细节详细阐述,但其博客上提到谷歌已研究TPU超过一年时间,并发现TPU能为机器学习提供比所有商用GPU和FPGA更高量级的指令,这基本相当于7年后的科技水平。 过去一年,TPU得到了十分广泛的使用。“如果你使用云语音识别服务,它就会使用TPU的性能。如果你使用Android语音识别服务,它也会使用TPU的性能,”霍泽尔称。 谷歌TPU通过PCI-E协议连接至计算机服务器,可以快速提升人工智能软件的性能。霍泽尔称,这是谷歌首次尝试为人工智能任务设计专用硬件。 谷歌不会放弃传统的CPU和GPU,但是TPU会带来突破性的进步。

    1.4K50发布于 2018-05-28
  • 来自专栏人工智能快报

    谷歌开放TPU应对英伟达GPU挑战

    TPU是一个定制的特定于应用程序的集成电路(ASIC),专门为TensorFlow上的机器学习工作负载定制。谷歌两年前推出了TPU,去年发布了第二代云TPU。 第一代TPU仅用于推理,而云TPU则适用于推理和机器学习训练。使用四个定制ASICs构建的云TPU提供了一个健壮的64GB的高带宽内存和180TFLOPS的性能。 在向公众开放之前,谷歌已经在内部广泛地实施了这些TPU。阿尔法狗(AlphaGo)使用48个TPU进行推断,在围棋游戏中击败了人类冠军。云TPU为缩短机器学习模型的训练时间提供了很好的解决方案。 当云TPU发布的时候,Google为机器学习研究人员提供了1000个免费设备。Lyft是美国第二大打车公司,自去年以来,一直在其自动驾驶系统中使用云TPU。 谷歌的云TPU目前还在测试版,仅提供有限的数量和使用。开发者可以每小时6.50美元的价格租用云TPU,因其拥有强大的计算能力,这似乎是一个合理的价格。

    1.1K80发布于 2018-03-30
  • 来自专栏Android Camera开发

    CPU、GPU、NPU、TPU、DPU的简单了解

    TPU(Tensor Processing Unit,张量处理器)是谷歌于2016年推出的张量处理单元,主要用于低精度运算。

    1.9K10编辑于 2025-08-09
领券