编译子图以减少短暂Ops的执行时间,以消除TensorFlow运行时间的开销,融合流水线操作以减少内存开销,并专用于已知张量形状以允许更积极的恒定传播。 改善内存使用。
融合以太网上的RDMA。 我们还对NVIDIA的NCCL库进行了多GPU通信的初步支持(请参阅参考资料tf.contrib.nccl)。
TensorFlow中有许多融合操作,XLA将尽可能创建融合操作,以自动提高性能。下面收集的是精选的融合行动,可以大大提高性能,并可能被忽视。
[图片] 例子: 着色灰度图像 找到两个分段的交集 RAG阈值 对比和曝光 图像像素可以采用由dtype图像(请参阅图像数据类型及其含义)确定的值,例如uint8图像或[0,1]浮点图像的0至255。
例B 一个融合了检测和构建任务的样例,插件调用PostCSSJSAPI,结合postcss-import使用(使用它的plugins选项),因此,源文件在转换之前就进行了检测。
使用融合的批处理-规范化 TensorFlow中的默认批量标准化是作为组合操作实现的。这是非常普遍的,但往往导致表现欠佳。另一种方法是使用融合的批量标准化,通常在GPU上具有更好的性能。

扫码关注腾讯云开发者
领取腾讯云代金券
Copyright © 2013 - 2026 Tencent Cloud. All Rights Reserved. 腾讯云 版权所有
深圳市腾讯计算机系统有限公司 ICP备案/许可证号:粤B2-20090059
粤公网安备44030502008569号
腾讯云计算(北京)有限责任公司 京ICP证150476号 | 京ICP备11018762号
