首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    飞桨推出异构参数服务器架构,异构硬件高效组合,训练速度提升65%以上

    3:传统参数服务器架构(CPU 机器)遇到算力瓶颈 如果更新集群硬件,改为使用的是 GPU 机器作 Trainer,则可能会出现资源利用率低和网络带宽不足的问题: 资源利用率低:IO 密集型任务主要还是数据读取和模型读取 ——异构参数服务器训练架构 上面的要求好像很多,其实核心问题就在于硬件的配置,传统的参数服务器对硬件的统一性要求太严格,而现实是单一「兵种」是无法应对大部分「战场」的。 通过异构参数服务器训练架构,用户可以在硬件异构集群中部署分布式训练任务,例如云服务器集群,实现对不同算力的芯片高效利用,为用户提供更高吞吐、更低资源消耗的训练能力。 ? 图 6:传统参数服务器架构的异构改造 值得注意的是,异构参数服务器架构并不只是简单的将计算任务拆分。拆分后,异构硬件间的通信代价高的问题也需要解决。为了解决这个问题,飞桨的整个传输通信过程得到了优化。 3. 调用 Paddle 分布式 Fleet API,添加运行策略,设置异构设备 (Heter-Trainer) 使用 GPU 作为运算设备,然后完成反向组网。 ? 4.

    1.2K31发布于 2020-11-13
  • 来自专栏相约机器人

    飞桨推出异构参数服务器架构,异构硬件高效组合,训练速度提升65%以上

    3:传统参数服务器架构(CPU 机器)遇到算力瓶颈 如果更新集群硬件,改为使用的是 GPU 机器作 Trainer,则可能会出现资源利用率低和网络带宽不足的问题: 资源利用率低:IO 密集型任务主要还是数据读取和模型读取 ——异构参数服务器训练架构 上面的要求好像很多,其实核心问题就在于硬件的配置,传统的参数服务器对硬件的统一性要求太严格,而现实是单一「兵种」是无法应对大部分「战场」的。 通过异构参数服务器训练架构,用户可以在硬件异构集群中部署分布式训练任务,例如云服务器集群,实现对不同算力的芯片高效利用,为用户提供更高吞吐、更低资源消耗的训练能力。 ? 图 6:传统参数服务器架构的异构改造 值得注意的是,异构参数服务器架构并不只是简单的将计算任务拆分。拆分后,异构硬件间的通信代价高的问题也需要解决。为了解决这个问题,飞桨的整个传输通信过程得到了优化。 3. 调用 Paddle 分布式 Fleet API,添加运行策略,设置异构设备 (Heter-Trainer) 使用 GPU 作为运算设备,然后完成反向组网。 ? 4.

    90620发布于 2020-11-13
  • 来自专栏软硬件融合

    硬件共同定义:超异构开放生态

    今天这篇文章,我们主要关注如下话题: 超异构计算,为什么需要开放生态? 开放生态应该由硬件定义还是软件定义? 什么样的生态才算开放? 工艺封装持续进步,工艺10nm以下,芯片从2D->3D->4D。Chiplet使得在单芯片层次,可以构建规模数量级提升的超大系统。系统规模越大,超异构的优势越明显。 最后,系统架构需要持续创新。 3 开放架构和生态的现状 3.1 开放架构和生态综述 系统必然是在某个层次开放: 用户接口:应用程序必须提供UI供用户使用。 5 总结:软硬件共同定义,超异构开放生态 5.1 软件原生支持硬件加速 软件原生支持硬件加速: 软件架构调整,控制面和计算/数据面分开; 控制面和计算/数据面接口标准化; 硬件加速资源的发现能力,自适应选择软件计算 超异构时代,必须要形成开放的生态,才能让计算资源形成一个整体,才能满足元宇宙等应用场景对算力数量级提升的要求。 5.6 软硬件共同定义:超异构开放生态 首先,是超异构计算架构。

    1.5K50编辑于 2023-02-28
  • 来自专栏FPGA/ARM/DSP技术专栏

    Zynq-70107020异构多核SoC工业核心板硬件说明书

    本期分享Zynq-7010/20工业开发板(双核ARM Cortex-A9+A7)的参数规格资料,其中包含软硬件、原理图、工业温度等均有。 测试板卡是一款基于Xilinx Zynq-7000系列XC7Z010/XC7Z020高性能低功耗处理器设计的异构多核SoC工业级核心板,处理器集成PS端双核ARM Cortex-A9 + PL端Artix 硬件资源SOM-TLZ7x-S核心板板载CPU、ROM、RAM、USB PHY、晶振、电源、LED等硬件资源,并通过邮票孔连接方式引出IO。 图 1 核心板硬件框图图 2CPU核心板CPU型号兼容XC7Z010-2CLG400I/XC7Z020-2CLG400I,CLG400封装,工作温度范围为-40°C~100°C,引脚数量为400个,尺寸为 底板BOOT SET引脚上拉电源需使用VDD_3V3_BOOT以保证正确读取BOOT SET引脚的电平状态。设计系统启动配置电路时,请参考评估底板BOOT SET部分电路进行相关设计。

    3.8K21编辑于 2022-10-31
  • 来自专栏嘘、小点声

    日常记录(3硬件相关

    https://blog.csdn.net/qq_41844618/article/details/104347445

    56330编辑于 2021-12-09
  • 来自专栏腾讯大数据的专栏

    腾讯联合生态伙伴,共同推动业界首个异构硬件编程模型标准立项!

    前言 近期,由腾讯联合中国移动、中国联通、中国信通院、中国科学院计算技术研究所共同发起,在中国通信标准化协会(CCSA)互联网与应用委员会(TC1)推动异构硬件两项行业标准成功立项。 前者为开发者提供一套针对不同硬件的统一编程模型及范式标准;后者将定义一套异构硬件的统一虚拟指令集,对异构高性能加速硬件的运算、处理等基础功能进行一致化约束,实现同一应用程序经过一次编译即可在不同异构硬件上运行和迁移 同时,展现了其对主流框架、模型格式、以及异构硬件的强大支持能力,包括兼容PyTorch、Tensorflow、ONNX等主流框架及相应的模型格式,支持CPU、GPU以及腾讯自研的紫霄处理器等多种硬件平台 ,使得业务几乎无需对源码或模型结构进行修改,便能在异构平台上运行,并获得显著的性能提升。 业务实践 在腾讯广告推荐场景中,支持联盟粗排等业务异构芯片生产上线,性能超过了厂商原生方案的30%-140%,精排业务也在上线进行中; 在大模型推理场景中,ABO异构编译器支持多种混元子模型,能够平滑运行在多异构芯片上

    46510编辑于 2024-06-19
  • 来自专栏技术汇总专栏

    轻量级边缘Agent架构的动态裁剪机制与异构硬件适配策略

    内存调度、异构计算协同)两大核心技术,并结合PyTorch实现模型裁剪案例与硬件适配工程实践,最后通过实验验证架构的有效性。 其中,优化层是架构轻量化的核心保障:模型裁剪引擎针对感知层和决策层的基础模型,基于硬件资源动态选择裁剪策略;硬件适配引擎通过指令集映射、内存池管理、异构计算调度,实现模型计算与硬件资源的高效匹配。 硬件适配的核心目标是最大化硬件资源利用率(如CPU多核并行、GPU张量核心利用、内存带宽优化),其技术体系涵盖指令集优化、内存调度优化、异构计算协同三大方向。 4.3异构计算协同:发挥多硬件的协同优势现代边缘设备多具备异构计算能力(如CPU+GPU+NPU的组合,如NVIDIAJetson系列的CPU+GPU、华为昇腾AI芯片的CPU+NPU),通过异构计算协同 异构计算协同的核心是任务调度策略,在轻量级Agent中,优化层的异构调度模块采用“任务类型-硬件能力”匹配机制:1)将密集型浮点计算(如卷积、矩阵乘法)分配给GPU/NPU,利用其并行计算单元提升效率;

    28510编辑于 2025-10-29
  • 来自专栏深入浅出区块链技术

    Filecoin 二阶段测试(3) - 异构集群测试

    今天给大家分享一下我们近期在测试网验证过的异构集群挖矿方案。 (2)通过 ssh 登录到 Miner 节点,创建钱包和矿工 gamma_lotus wallet new bls t3rslakvn3kg4y3g2kmgj6pu2rszydinfn4uh5fhnfa4k6wol5oychtkdpjkrqsqs3q54tndmmg7fq42diyqdq FIL_PROOFS_PARAMETER_CACHE=/gamma/filecoin-proof-parameters gamma_lotus-storage-miner init --actor=t0117997 --owner=t3rslakvn3kg4y3g2kmgj6pu2rszydinfn4uh5fhnfa4k6wol5oychtkdpjkrqsqs3q54tndmmg7fq42diyqdq (3)安装 lotus-seal-worker ? 当前集群已经稳定运行 5 天了,目前一切正常,除了有段时间关机调整机器配置掉了 3 个扇区的算力以外,后面就再也没有掉过算力。 目前 Miner Info 如下图所示: ? 3.

    1.8K30发布于 2020-07-14
  • 来自专栏软硬件融合

    硬件融合:超异构计算革命(第七版,附下载链接)

    ---- 编者按: 《软硬件融合》图书的写作背景: 软件热点层出不穷,并且快速迭代;CPU性能瓶颈,摩尔定律失效;图灵奖获得者J&D给出的解决方案是特定领域架构DSA。 软件业务异构加速,如网络、存储、虚拟化、安全、数据库、视频图像、深度学习等场景的加速,目前是各自为战的“孤岛”。 云/边缘计算等综合性“宏”场景,是多种复杂场景的叠加。 提出了全新的设计理念和方法——软硬件融合,期望实现软件灵活性和硬件高效性的统一。 ---- ◉ 点击访问网址,观看“软硬件融合”直播回放: https://aijishu.com/l/1110000000344055。

    48130编辑于 2022-12-16
  • 来自专栏贾维斯Echo的博客

    计算机硬件组成(3

    (对硬件损耗巨大,极易损坏,要做好监控,防患于未然)         服务器分类:               尺寸:1U、2U、4U               外形:                                    塔式                  小型机----》高端定制(过时)                  云主机                品牌:dell、惠普、IBM 计算机硬件组成 : CPU(控制器+运算器) 储存器: 内存--------》内存条:存取速度快,断电即消失 外存--------》机械硬盘:存取速度慢,断电不消失 输入设备 输出设备 计算机三大核心硬件:CPU、内存 )*** cache:把硬盘的数据在内存中缓存好,cpu取的时候可以直接从内存中读取,从内存中读取数据,这个存数据的内存空间称为缓存区(cache)*** 内核态和用户态 内核态——>操作系统正在控制硬件 :cpu、内存、硬盘等 3.BIOS读取CMOS存储器中的参数,选择启动设备 4.从启动设备上读取第一个扇区的内容(称之为主引导记录mbr)(MBR主引导记录512字节,前446为引导信息,后64为分区信息

    58720编辑于 2023-10-18
  • 来自专栏公有云大数据平台弹性 MapReduce

    HDFS 异构存储

    需求 Hadoop 从 2.4 后开始支持异构存储,异构存储是为了解决爆炸式的存储容量增长以及计算能力增长所带来的数据存储需求,一份数据热数据在经历计算产生出新的数据,那么原始数据有可能变为冷数据,随着数据不断增长差异化存储变的非常迫切 100.67.159.132-1474351508701:blk_1073742696_1880 len=67108864 repl=2 [100.67.57.222:4028, 100.67.57.221:4028] 3\ 100.67.159.132-1474351508701:blk_1073742696_1880 len=67108864 repl=2 [10.108.100.24:4000, 100.67.57.221:4028] 3\ 100.67.159.132-1474351508701:blk_1073742696_1880 len=67108864 repl=2 [10.108.100.24:4000, 10.108.100.71:4000] 3\ 100.67.159.132-1474351508701:blk_1073742696_1880 len=67108864 repl=2 [10.108.100.24:4000, 100.67.57.220:4028] 3\

    4.5K21发布于 2017-07-28
  • hadoop异构存储

    ·Hadoop异构存储是一种基于HDFS的存储优化技术,通过将不同热度的数据分配到不同类型的存储介质上实现性能与成本的平衡。 以下是其核心原理和实现方式: 一、核心概念 ‌异构存储基本原理‌:Hadoop集群允许使用SSD、HDD、ARCHIVE等多种存储介质,根据数据的访问频率(热/温/冷)匹配对应的存储类型,例如SSD存储频繁访问的热数据 四、注意事项 ‌数据迁移延迟‌:策略变更后数据移动可能需要触发条件(如写入、Balancer运行)才会生效; ‌策略继承规则‌:目录的存储策略默认继承父目录,根目录默认为HOT3; ‌版本兼容性‌:需Hadoop 2.6+版本支持,部分特性(如HBase WAL异构存储)需HBase 1.1+。 通过上述机制,Hadoop异构存储实现了存储资源的智能调度,兼顾性能需求和成本控制。

    29510编辑于 2025-12-23
  • 来自专栏石开之旅

    硬件笔记(6)----USB学习笔记3

    USB 规范中对实际的计算公式进行了解释,这些计算由 USB 硬件进行,这样可确保能够发出正确的响应。数据操作的接收方对数据进行 CRC 检查。如果两者匹配,那么接收方将发出一个 ACK。

    1.6K30发布于 2019-07-02
  • 来自专栏松华说

    谈谈数据异构

    这就是我今天要和大家讨论的数据异构,将数据进行异地异构存储,比如说需要整合多张表数据构成一条记录然后异地存储。 我们先来看下第一种方案,就是双写,业务代码在对数据库操作时同步缓存。 那有没有更好的方案完成数据异构呢?答案就是利用Mysql的binlog日记。 可以看出binlog日记具备高可靠性、低时延性,所以我们可以利用binlog日记来完成数据异构。 好,今天我主要和你讨论了关于如何利用数据异构实现多级缓存,这个技术还可以解决下面这种问题,比如数据库分库分表后如何进行数据迁移,当然后者的实现更加复杂,需要考虑数据校验问题,就不再展开了。

    3.5K30发布于 2019-12-03
  • 来自专栏于潇宇的专栏

    深度学习的异构硬件加速:TPU 特性与数据中心的 ASIC 应用(概述篇)

    尤其近年来,CPU与存储器发展的不平衡,高达64核的CPU依然采用传统的存储构架,带宽问题严重,使数据中心对高性能计算的缺口增加,以GPU为代表的非冯构架的异构处理器被广泛应用。 目前的异构处理器大致可分为三类,即量子计算,类脑计算,和领域计算。 当还在使用DDR3内存时,显存已经上了DDR5和HBM(一种片内堆叠存储)。 其论文中曾酸酸的提到,如果能将DDR3的外存提升到对标的GPU K80的DDR5,性能会提升3倍。 其次,从定制性和计算粒度上看,处理器的性能有两个指标,即峰值计算能力,和计算效率。 [1503891140310_7733_1503891140386.png] 图4 TensorFlow到TPU,软件到硬件资源的无缝连接 本文从应用背景的角度论述了Google研制TPU 并将其应用于数据中心的原因

    3.6K10发布于 2017-08-29
  • 来自专栏博文视点Broadview

    “云上生长”网络研讨会|使用 GPU 和 VPU 等异构硬件加速视频转码

    在此背景下,企业对极高效率、极低延迟的追求与传统硬件瓶颈、算力闲置的现状发生冲突,如何高效组合异构硬件,充分提高硬件利用率,降低成本,就成为当下值得思考的一个问题。 云计算中的计算资源来自不同的硬件,其中最具代表性的就是 CPU 和 GPU,以及后期兴起的VPU、NPU、TPU 等专业计算硬件。 而每种硬件都有不同的特性和使用成本,直接决定任务调度模块的设计与实现。 青云云点播服务中的转码服务(公测期间免费),就是 GPU 在视频转码中的实际应用。 本次研讨会,我们邀请到了青云科技音视频技术专家李小文,为大家分享 GPU、VPU 等异构硬件在视频转码服务中的应用与实践。 李小文 青云科技顾问级研发工程师,主导青云音视频处理相关技术架构设计。 9 月 1 日(星期四)下午 3:00 青云“云上生长”系列网络研讨会第一期 扫描二维码报名 即有机会获得热门技术书籍!

    70710编辑于 2022-08-29
  • 来自专栏Rice嵌入式

    R-Plan - Little Box硬件篇 (3)

    功能列表如下: 模块功能BK7252U WIFI模块作为主控(主频180MHz)及wifi联网功能BLE辅助配网摄像头OV7670图像识别,拍照LCD图片显示,时间显示,环境温湿度显示SHT3X获取环境温湿度 MIC录音,语音识别控制,声波配网,喇叭录音播放,音乐播放SD card保存图片,存放音乐,数据存储 硬件硬件设计采用两片PCB通过排针叠罗汉,中间放置摄像头,喇叭,麦克风,电池。 下面介绍各个子模块的原理图: BK7252U WIFI模块原理图 摄像头OV7670原理图 LCD原理图 电池充电IC原理图 USB转TTL电平(串口)原理图 功放芯片原理图 SHT3x温湿度传感器原理图 麦克风原理图 SD card(采用一线)原理图 TYPE-C接口原理图 整体原理图 3D图 顶层 底层 总结 这是R-Plan的第一个硬件项目,这个项目将会把每一个实现的功能写成文章分享 第一版的硬件已经上传到R-Plan仓库:https://github.com/RiceChen/R_Plan.git。喜欢的记得给个star。 目前R-Plan已经有4颗米粒了,后续不断增加米粒。

    74110编辑于 2022-05-10
  • 来自专栏AI学习笔记

    FlashAttention - 3 精解:硬件感知 Attention 优化

    FlashAttention-3 作为这一领域的闪耀新星,带着硬件感知的优化理念横空出世。 三、FlashAttention-3 的代码部署实践(一)环境准备在开始部署 FlashAttention-3 之前,我们需要搭建一个适合其运行的软硬件环境。 硬件要求 :FlashAttention-3硬件有一定要求,建议使用支持 CUDA 的 NVIDIA GPU,且显存容量最好在 4GB 以上。 通过与不同硬件厂商合作,开发针对性的优化方案,使 FlashAttention-3 能够在各种硬件上发挥最佳性能,推动 AI 模型在更多设备上的部署和应用。 (二)面临的挑战跨硬件平台的兼容性问题 :随着 FlashAttention-3 向多种硬件平台扩展,不同硬件架构之间的差异可能导致兼容性问题。

    1.3K01编辑于 2025-07-09
  • 来自专栏全栈程序员必看

    “多源异构”和“异构同源”定义区分详解「建议收藏」

    “多源异构”和“异构同源”定义区分详解 一、多源异构 1、定义 2、示例解释 二、异构同源 1、定义 2、示例解释 三、综合举个简单栗子: 叮嘟!这里是小啊呜的学习课程资料整理。 一、多源异构 1、定义 多源异构简单而言就是指一个整体由多个不同来源的成分而构成,既有混合型数据(包括结构化和非结构化)又有离散性数据(数据分布在不同的系统或平台),互联网就是一个典型的异构网络,融合传播矩阵就是一个典型的多源异构数据网络 从简单的文件数据库到复杂的网络数据库构成了媒体的异构数据源。 二、异构同源 1、定义 异构同源不强求物理上的集中,而是保持组织数据的分布现状,将各个系统的数据通过接口包装成服务,注册到组织服务总线,通过组织服务总线提供统一的数据服务,从而实现数据在逻辑上的整合。 就汽车零部件生产渠道数据、行驶数据而言可以说这辆汽车的数据是多源异构的。

    5K20编辑于 2022-08-02
  • 传统集成异构和集成平台异构有什么区别?

    为了实现数据的互联互通和业务的顺畅运行,异构系统的集成成为了企业信息化建设的必然选择。然而,传统异构和集成平台异构在实现方式和效果上存在显著差异。传统集成异构与集成平台异构的对比1. 实施难度与成本传统集成异构:对于企业用户而言,传统异构系统的实施难度较大,需要为每个系统单独开发适配器或API,这不仅耗时长、成本高,而且容易出错。此外,随着系统数量的增加,维护成本也会呈指数级增长。 集成平台异构:相比之下,集成平台异构的实施难度较低,成本也更可控。企业只需通过统一的集成平台接入各个异构系统,无需为每个系统单独开发适配器。这大大降低了实施难度和成本,同时也提高了系统的可维护性。 灵活性与响应速度传统集成异构:传统异构系统在面对业务变化时,灵活性较差。新增系统或修改现有系统的接口需要耗费大量时间和资源,无法快速响应业务需求的变化。 集成平台异构:集成平台异构具有更高的灵活性和响应速度。企业可以通过集成平台轻松实现系统的新增、修改和删除,快速响应业务变化。这有助于企业在激烈的市场竞争中保持领先地位。3.

    57621编辑于 2024-08-13
领券