首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏硅光技术分享

    光子硬件加速器

    光子硬件加速器(photonic accelerator,简称PAXEL)是用光子处理一些特殊的计算任务,辅助已有的数字计算机。其典型的框架图如下图所示, ? (图片来自文献1) 与电子硬件加速器相比,光子加速器方案中信号加载在光信号上,因而会需要额外的光电转换步骤。PAXEL的主要优势是计算速度快、功耗小。 文献1中列出了光子硬件加速器的几个应用情景, 1)人工神经网络(articifical neural network) 深度学习的计算涉及大量的矩阵计算, ? 3) 基于逻辑门的计算 集成电路以与或非三种逻辑运算为基础,可实现任意的运算。光学逻辑门方案试图采用类似的途径,以光学逻辑门单元实现复杂的运算。 (图片来自文献1) 以上是文献1中提及到的光子加速器的几个应用场景,相比较而言,在深度学习方面的应用,受到了更多的关注,并且也在往商业化的道路推广。

    3.4K30发布于 2020-08-13
  • 来自专栏FPGA技术江湖

    数据中心中的FPGA硬件加速器

    再来看一篇FPGA的综述,我们都知道微软包括国内的云厂商其实都在数据中心的服务器中部署了FPGA,所以这篇论文就以数据中心的视角,来看下FPGA这个硬件加速器。 还是一样,想要论文原文的可以私信我。 Xilinx 开发了专用的自适应加速器硬件模块 ALVEO,用于数据中心相关应用。 案例研究:用于数据处理的可重构设备 硬件加速器 谷歌、微软和亚马逊已经更新了部署 FPGA 的数据中心,以增强后端的机器学习。FPGA 为节能可编程硬件架构提供了一种很有前景的替代方案。 图 3 显示了超片单元上的卷积计算。 在此设计中,对基本增强处理单元 (EPE) 进行了放大和修改,使其成为超片单元,以提高不同种类卷积过程的交错类型任务调度的性能。 地球物理的 3D 卷积比 CPU 快 70 倍,比 CPU 快 14 倍。分子动力学的求解速度比 NAMD CPU 快 80 倍。

    75610编辑于 2025-01-11
  • 来自专栏嘘、小点声

    日常记录(3硬件相关

    https://blog.csdn.net/qq_41844618/article/details/104347445

    56330编辑于 2021-12-09
  • 来自专栏AI研习社

    谷歌全面开源 MLIR 及生态联盟,全球 95% 的加速器硬件都在使用

    TensorFlow 生态系统包含许多编译器和优化器,可在多个级别的软硬件堆栈上运行。 MLIR 没有众所周知的固定或内置的操作列表(无「内联函数」),方言可完全定义自定义类型,即 MLIR 如何对 LLVM IR 类型系统(拥有一流汇总)、域抽象(对量化类型等经机器学习 (ML) 优化的加速器有着重要意义 图 3 AI 协助农民进行检测(https://www.blog.google/technology/ai/ai-takes-root-helping-farmers-identity-diseased-plants 它提供了新的基础设施和设计理念,使得机器学习模型能够在任何类型的硬件上一致地表示和执行。 ,Mediatek,NVIDIA,Qualcomm Technologies,Inc,SambaNova Systems,Samsung,Xilinx 的小米——占全球数据中心加速器硬件的 95%以上,

    2K20发布于 2019-09-17
  • 来自专栏贾维斯Echo的博客

    计算机硬件组成(3

    (对硬件损耗巨大,极易损坏,要做好监控,防患于未然)         服务器分类:               尺寸:1U、2U、4U               外形:                                    塔式                  小型机----》高端定制(过时)                  云主机                品牌:dell、惠普、IBM 计算机硬件组成 : CPU(控制器+运算器) 储存器: 内存--------》内存条:存取速度快,断电即消失 外存--------》机械硬盘:存取速度慢,断电不消失 输入设备 输出设备 计算机三大核心硬件:CPU、内存 )*** cache:把硬盘的数据在内存中缓存好,cpu取的时候可以直接从内存中读取,从内存中读取数据,这个存数据的内存空间称为缓存区(cache)*** 内核态和用户态 内核态——>操作系统正在控制硬件 :cpu、内存、硬盘等 3.BIOS读取CMOS存储器中的参数,选择启动设备 4.从启动设备上读取第一个扇区的内容(称之为主引导记录mbr)(MBR主引导记录512字节,前446为引导信息,后64为分区信息

    58720编辑于 2023-10-18
  • 来自专栏石开之旅

    硬件笔记(6)----USB学习笔记3

    USB 规范中对实际的计算公式进行了解释,这些计算由 USB 硬件进行,这样可确保能够发出正确的响应。数据操作的接收方对数据进行 CRC 检查。如果两者匹配,那么接收方将发出一个 ACK。

    1.6K30发布于 2019-07-02
  • 来自专栏Rice嵌入式

    R-Plan - Little Box硬件篇 (3)

    功能列表如下: 模块功能BK7252U WIFI模块作为主控(主频180MHz)及wifi联网功能BLE辅助配网摄像头OV7670图像识别,拍照LCD图片显示,时间显示,环境温湿度显示SHT3X获取环境温湿度 MIC录音,语音识别控制,声波配网,喇叭录音播放,音乐播放SD card保存图片,存放音乐,数据存储 硬件硬件设计采用两片PCB通过排针叠罗汉,中间放置摄像头,喇叭,麦克风,电池。 下面介绍各个子模块的原理图: BK7252U WIFI模块原理图 摄像头OV7670原理图 LCD原理图 电池充电IC原理图 USB转TTL电平(串口)原理图 功放芯片原理图 SHT3x温湿度传感器原理图 麦克风原理图 SD card(采用一线)原理图 TYPE-C接口原理图 整体原理图 3D图 顶层 底层 总结 这是R-Plan的第一个硬件项目,这个项目将会把每一个实现的功能写成文章分享 第一版的硬件已经上传到R-Plan仓库:https://github.com/RiceChen/R_Plan.git。喜欢的记得给个star。 目前R-Plan已经有4颗米粒了,后续不断增加米粒。

    74110编辑于 2022-05-10
  • 来自专栏AI学习笔记

    FlashAttention - 3 精解:硬件感知 Attention 优化

    FlashAttention-3 作为这一领域的闪耀新星,带着硬件感知的优化理念横空出世。 三、FlashAttention-3 的代码部署实践(一)环境准备在开始部署 FlashAttention-3 之前,我们需要搭建一个适合其运行的软硬件环境。 硬件要求 :FlashAttention-3硬件有一定要求,建议使用支持 CUDA 的 NVIDIA GPU,且显存容量最好在 4GB 以上。 通过与不同硬件厂商合作,开发针对性的优化方案,使 FlashAttention-3 能够在各种硬件上发挥最佳性能,推动 AI 模型在更多设备上的部署和应用。 (二)面临的挑战跨硬件平台的兼容性问题 :随着 FlashAttention-3 向多种硬件平台扩展,不同硬件架构之间的差异可能导致兼容性问题。

    1.3K01编辑于 2025-07-09
  • 来自专栏新智元

    揭开Groq LPU神秘面纱:世界最快硬件加速器的底层架构设计!

    凭借自研的硬件加速器LPU,达成了500个token/s的神级推理速度,当场秒杀了ChatGPT。 指令流水线(Instruction pipelining):将指令分为多个阶段,以流水线的方式执行,再次提高了指令吞吐量; - 多级缓存(Multiple levels of caches):CPU有2到3级缓存 TSP编程模型依赖于两个关键要素: 硬件中的确定性数据路径 通过ISA获得的有关指令延迟的信息 编译器的后端可以跟踪片上任何流的位置和使用时间,称为软件定义硬件。 TSP的计算模型基于确定性硬件,所以整个分布式系统也应具有同样的确定性。 使用硬件对齐计数器同步TSP的时钟 每个TSP设备都包含一个称为硬件对齐计数器(HAC)的硬件计数器,溢出周期为256。 计划的数据流 在传统的网络系统中,通过网络的数据包流由硬件管理,硬件在感应到网络中的负载时会优化路由。数据流中的这种被动调整会增加延迟,并在数据流中引入非确定性。

    90010编辑于 2024-03-13
  • 来自专栏新智元

    自动编程DNN加速器!只需3步,云端终端通用

    可是,设计一个基于FPGA的高性能DNN推理加速器还是充满了困难,它需要寄存器传输级(RTL)编程技巧,硬件验证知识和丰富的硬件资源分配经验等硬件设计相关知识,对于在算法层面关注深度学习的研究人员来说是非常不友好的 三大硬件设计创新 本文提出了多个DNN加速器架构创新,令自动生成的加速器也拥有现时最高的吞吐率、最少的输出响应时间和极佳的可拓展性。 图 3传统流水线结构(左)及本文提出的细粒度流水结构(右) 3)高性能RTL IP是构建DNN加速器的最基本模块。 表2 DNN推理加速器性能对比(云端FPGA设备) ? 本文作者还以AlexNet作为基准测试,对比了基于GPU和FPGA的DNN推理加速器(表3)。 DNNbuilder所生成的基于FPGA的加速器在效率方面超过了基于GPU的设计。 表3 GPU与FPGA的DNN推理性能对比 ?

    1.1K30发布于 2018-12-13
  • 来自专栏网络技术联盟站

    AI芯片设计与优化:算力提升、能耗降低与硬件加速器的发展趋势

    本文将详细介绍AI芯片设计与优化中的算力提升、能耗降低以及硬件加速器的发展趋势,并分析其对AI技术发展的影响。图片1. 3. 硬件加速器的发展趋势为了满足日益增长的AI计算需求,硬件加速器成为了芯片设计与优化的重要方向之一。硬件加速器通过专门设计和优化的硬件结构,能够显著提升芯片的计算能力和能效比。 3.1 图像处理单元(Image Processing Unit,IPU)IPU是一种针对图像处理任务的硬件加速器,通过并行处理、特定指令集和定制化架构等方式,实现对图像处理任务的高效加速。 3.2 神经网络处理单元(Neural Network Processing Unit,NPU)NPU是一种专门用于神经网络计算的硬件加速器,具有高度的并行计算能力和低能耗的特点。 优化算力、降低能耗和发展硬件加速器是提高AI芯片性能的关键要素。随着技术的进步和需求的不断变化,AI芯片设计与优化的趋势将持续演进,并为各个行业带来更多的应用机会。

    2K30编辑于 2023-07-04
  • 来自专栏linux运维

    硬件维护问题:硬件维护不当,导致硬件故障

    检查当前硬件状态首先,我们需要检查当前系统的硬件状态。 常见的硬件维护问题及解决方案2.1 硬盘维护不当问题:硬盘维护不当,导致数据丢失或性能下降。解决方案:定期检查硬盘健康状态,备份重要数据。 2.6 散热维护不当问题:散热维护不当,导致硬件过热或性能下降。解决方案:定期清理散热器和风扇,确保散热良好。示例:使用压缩空气清理散热器和风扇:关闭计算机并断开电源。 2.7 环境维护不当问题:环境维护不当,导致硬件受潮或积尘。解决方案:保持良好的工作环境,避免潮湿和灰尘。示例:保持机房通风良好,使用防尘网和除湿器。3. 使用自动化工具进行硬件维护工具:Ansible介绍:Ansible 是一个自动化工具,可以用于远程管理和配置多台主机。

    95910编辑于 2025-02-07
  • 来自专栏云深之无迹

    树莓派 3B 折腾:硬件看门狗

    在计算机中,“看门狗”指的是一种硬件计时器,用于在计算机失去响应(死机)的时候重启计算机。计算机的系统上要运行一个程序不断和看门狗硬件通信。 通过开启树莓派上的硬件看门狗功能,就可以减少这种情况的出现。 ? 如果没有,就要根据树莓派版本加载驱动: 树莓派 1代的驱动名为:bcm2708_wdog 树莓派 2代的驱动名为:bcm2709_wdog 树莓派 3代的驱动名为:bcm2835_wdt 使用 modprobe 安装通信软件 前面提到,硬件看门狗需要和软件通信来确定系统的状态。 https://lantian.pub/article/modify-computer/raspberry-pi-3b-hardware-watchdog.lantian/

    1.7K20发布于 2021-04-14
  • 来自专栏计算机视觉life

    Facebook Surround360 学习笔记--(3硬件设计要点

    如果自己想模仿surround360设计一款3D360°的设备,硬件选择有什么要注意的吗? 圆盘设计有要求吗? 回答:有要求,圆盘半径r,侧面相机数目n,侧面相机视场角之间要满足如下的约束关系才能产生较好的3D效果: i = r * sin(FOV/2 - 360/n) 其中: r近似为相机圆环中心到某个相机镜头的距离 机架精度越高越好,前面介绍系统时反复强调过要保证硬件机架具有非常高的精度。相机和固定相机的机架必须稳固连接,保证在长时间的使用过程中不会产生错位。 总之,能用硬件来做的尽量用硬件来做, 从而避免算法研发过程中陷入不断调试却始终无法得到满意结果的坑。

    1.4K60发布于 2018-01-08
  • 来自专栏机器之心

    3天上手,30天精通!—— 深度学习FPGA加速器设计

    机器之心专栏 作者:Pooterko 本文的目标是帮助对于深度学习硬件加速器设计感兴趣的朋友快速上手基于 FPGA 的深度学习加速器设计。 3 天入门实例 我们需要使用一个简单的实例来进行入门学习。 设置硬件周期为 10ns,在 Vivado HLS 2018.3 中综合得到该模块运行延迟和资源开销报告,其中延迟报告为 251376 个时钟周期(具体数字可能略有差异)。 3. 30 天精通学习 在完成了上面的 3 天入门实例后,大家可以进一步学习和实践 FPGA 加速器的设计,这一部分我们推荐大家利用 3 到 4 周的时间对相关知识进行详细、系统的学习。 结语 硬件加速器设计是一个长期的、需要大量经验积累的工作。

    3.8K42发布于 2019-06-05
  • 来自专栏前行的CVer

    硬件

    电机驱动电路 单片机引脚输出的电流最大为20mA左右,远远不能满足电机的电流需求,因此需要电机驱动电路。常用的驱动电路有H桥电路,它比较复杂和庞大,一般用于控制几十安的电机。对于较小电流电机,可以直接选择集成芯片,如RZ7899,一个芯片可以驱动一个电机,需要注意的参数为工作电压、输出最大电流。绘制原理图时,参考芯片手册中提供的应用电路进行绘制。单片机引脚连接芯片的中间可以放一个300欧的电阻,起到保护单片机和芯片的作用。芯片输入引脚接10k的下拉电阻到GND,让芯片不接单片机时不受外来信号的影响,即默认输入LL让电机处于浮空状态。电机正负极两端接一个104电容,避免火花。

    63210编辑于 2024-05-15
  • 来自专栏BestSDK

    itSeez3D 推出免费3D 影像SDK,无需任何额外硬件

    目前,一家名为itSeez3D的公司应用基于手机的3D扫描技术同样提供了类似的服务,能够把一张自拍转化为照片般逼真的3D虚拟化身。 itSeez3D官网称,使用智能手机的摄像头,不需要任何额外的硬件,用itSeez3D虚拟化身SDK就能打造高质量的脸部3D建模,可用于游戏、VR/AR(虚拟现实/增强现实)体验——一切都可以在几分钟内完成 目前,这一SDK开放beta测试,可以通过在avatar.itseez3d.com/beta上申请获得虚拟化身的SDK。 3.目前仍然在提升头发模型的效果,虚拟化身SDK拥有预先设定的发型和颜色,可以用于应用程序之中。 4.生产的3D头部可以自动和身体模型融合,允许打造全身虚拟化身,完全支持骨骼动画。 可以在云端实现3D重建,可以很简单地使用Web API,可用于一切所需的应用。 目前的SDK可以使用预设的发型,已经拥有六种预设的发型。

    88550发布于 2018-03-02
  • 来自专栏TopSemic嵌入式

    MicroPython 玩转硬件系列3:上电自动执行程序

    3.ampy工具使用 前面的2篇文章,我们都是通过直接在Putty终端里写代码或者把Windows里写好的代码复制到Putty终端里执行的。 第2步:直接在DOS窗口里,通过ampy在板子上运行hello.py程序,执行: ampy --port COM3 run led.py ? 注意:执行ampy指令前,你得确保串口没有被占用。 执行: ampy --port COM3 run led.py 我们看到led在不断闪烁了,但是并没有打印信息,这是什么原因呢? ? 针对这种情况,我们可以使用下面的指令: ampy --port COM3 run --no-output led.py ? 这样就不会一直停在那里了。 4.上电执行代码 通过以下3个步骤就可以实现上电自动执行代码了: 1) 将led.py改名为main.py 2) ampy --port COM3 put main.py 3) 板子重新上电,就可以看到灯不停的闪烁了

    4.7K11发布于 2021-05-31
  • 来自专栏乱码李

    Web 性能优化-CSS3 硬件加速(GPU 加速)

    CSS3 硬件加速简介 上一篇文章学习了重绘和回流对页面性能的影响,是从比较宏观的角度去优化 Web 性能,本篇文章从每一帧的微观角度进行分析,来学习 CSS3 硬件加速的知识。 CSS3 硬件加速又叫做 GPU 加速,是利用 GPU 进行渲染,减少 CPU 操作的一种优化方案。 关于 z-index 导致的硬件加速的问题,可以查看这篇文章 CSS3硬件加速也有坑!! 要注意的问题 (1)过多地开启硬件加速可能会耗费较多的内存,因此什么时候开启硬件加速,给多少元素开启硬件加速,需要用测试结果说话。 (2)GPU 渲染会影响字体的抗锯齿效果。 参考文章 Increase Your Site’s Performance with Hardware-Accelerated CSS 用CSS开启硬件加速来提高网站性能 css3硬件加速 CSS3硬件加速也有坑

    3.8K20发布于 2021-11-26
  • 来自专栏charlieroro

    通过硬件计数器,将性能提升3倍之旅

    通过硬件计数器,将性能提升3倍之旅 翻译自:Seeing through hardware counters: a journey to threefold performance increase 本文通过对 由于12xl实例的vCPU数是4xl实例的3倍,因此我们预期每个实例的吞吐量能够提升3倍。 除了CPU上的明显差异外,还看到慢节点的CPI几乎是快节点的3倍。此外,我们还看到了更高的L1缓存活动以及4倍的MACHINE_CLEARS计数。 但需要提醒的是,JVM中运行的特定负载可能不仅仅受应用代码的设计和实现的影响,还会受到JVM自身的影响,本文中我们描述了如何利用PMC来发现JVM原生代码的瓶颈,对其打补丁,并且随后使负载的吞吐量提升了3倍以上

    84410编辑于 2022-11-18
领券