为了使图像处理流水线更容易解释,假设输入流水线的目标是8个GPU,批量为256(每个GPU32个)。 并行读取并处理256条记录。这从图中的256个独立的RecordInput读操作开始。
[iuzixjacq8.png] 从磁盘读取图像并扭曲它们可以使用不重要的处理时间。为了防止这些操作放慢训练速度,我们在连续填充TensorFlow队列的16个独立线程中运行它们。
工人服务(每项任务中的一项) 使用适合可用硬件(CPU,GPU等)的内核实现来安排图操作的执行。 向其他工作者服务发送和接收操作结果。 内核实现 执行单个图形操作的计算。
GPU内核 GPU内核分两部分实现:OpKernel和CUDA内核及其启动代码。 有时OpKernel的实现在CPU和GPU内核之间很常见,比如检查输入和分配输出。
使用浮点算法是保持准确性的最简单方法,并且GPU可以加速这些计算,所以很自然的是没有太多关注其他数字格式。 现在,我们实际上有很多模型被部署在商业应用程序中。
虽然它不如完整运行的训练,但这对于许多应用程序来说是非常有效的,并且可以在笔记本电脑上短短三十分钟内运行,而无需GPU。

扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2026 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059
粤公网安备44030502008569号
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号
