首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏往期博文

    【目标检测】YOLOv5推理加速实验:TensorRT加速

    前言 前两篇博文分别讨论了YOLOv5检测算法的两种加速思路:采用多进程或批量检测,不过效果均收效甚微。本问将讨论使用TensorRT加速以及半精度推理/模型量化等优化策略对检测加速的实际影响。 )进行检测(忽略精度,只注重速度) 环境搭建 关于TensorRT的安装在之前博文【目标检测】使用TensorRT加速YOLOv5中已经写过,这里不作赘述。 YOLOv5最新版本可以将检测前后三个步骤(预处理、推理、非极大化抑制)分别统计时间,yolov5s.pt和yolov5s.engine的时间如下: yolov5s.pt Speed: 1.0ms inference, 2.0ms NMS per image at shape (1, 3, 1280, 1280) 可以看到,转成TensorRT之后,推理(inference)时间确实如某些资料所述,加速了五倍以上 1.140 0.878 yolov5n.engine 1.100 0.910 yolov5n.engine(量化后) 0.793 1.261 yolov5s.pt 1.184 0.845 yolov5s.engine

    2.4K40编辑于 2023-04-12
  • 来自专栏刘旷专栏

    AI主播、AI记者、AI编辑,传媒AI加速

    但随着AI的深入,Microsoft News方面逐渐转向 AI,其鼓励出版商和新闻工作者使用AI辅助工作,或用AI替代人工进行内容的处理、过滤、发表。 微软作为全球名企,每个改变都会引起其他企业效仿和学习,这一次AI替代编辑人员的改变也将影响传媒行业的发展。国外传媒AI之路是如此,国内传媒AI化之路也在逐渐升温。 方今,无论是台前还是幕后,AI在传媒行业各个环节如鱼得水。 一方面,AI5G、大数据、云计算、物联网、区块链等新兴科技产业的发展,不断催促传媒行业进行数字化变革,主流媒体需要向着智慧媒体的方向前进。 小结 在5G、人工智能、大数据等新技术推动下,媒体智能化转型势在必行。此刻,具备AI实力的科技巨头和积累多年经验的媒体机构,两者资源、技术互通,加快了传媒行业数字化进程。 传媒行业加速AI化,本质上是主流媒体、科技巨头为强化自身竞争实力所作出的改变,而新趋势将带来新格局,又一轮竞争开始了。 文/刘旷公众号,ID:liukuang110

    1.2K30发布于 2020-06-28
  • 来自专栏大数据文摘

    前沿 | 美国白宫AI峰会闭幕:特朗普政府5大措施加速布局AI生态

    5月10日,按照惯例,美国政府在白宫举办了一场人工智能(AI)科技峰会,一百多位高级政府官员,顶级学术机构的技术专家,工业研究实验室负责人以及应用人工智能技术的美国商业领袖参与了此次峰会。 在这次峰会中,与会者讨论了人工智能研发(R&D)、员工队伍发展、AI创新监管障碍以及AI部门特定应用等交叉问题,涵盖了食品和农业,能源和制造业,金融服务,医疗保健,运输和物流等行业。 这份报告给出了关于AI发展的一系列结论,其中包括: 支持国家人工智能研发生态系统 美国拥有一个独特的研发生态系统,可以渗透到美国创造力的边界中。 与会者讨论了自由市场科学发现方法:利用政府,行业和学术界的综合优势,研究形成更强大的公私合作伙伴关系,以加速人工智能新方法的研发。 启用高影响力、特定部门的人工智能应用程序 与会者组织了特定行业的会议,分享了行业领导者使用AI技术提高员工能力、发展业务并更好地为客户提供服务的新方式。

    50050发布于 2018-06-29
  • 来自专栏CSDN技术头条

    Facebook开源Torchnet,加速AI研究

    近日,Facebook 发表了一篇学术论文和一篇博客帖子详述Torchnet——一个用于简化人工智能——深度学习的新型开源软件。 图片描述 深度学习涉及海量数据,比如图片之上训练人工神经网络是目前的一大技术趋势。利用神经网络来预测新的数据,相比于构建一个全新的深度学习框架,Facebook决定在Torch基础之上来构建深度学习框架,Torch是一个Facebook之前开源的源程序库。 Facebook人工智能研究实验室深度学习专家Laurens van der Maaten表示:“深度学习让一切变得很容易,

    64690发布于 2018-02-12
  • 来自专栏人人都是极客

    解密AI芯片的加速原理

    下面我们从以上三点阐述下目前比较主流的深度学习在芯片层面实现加速的方法。 AI 芯片的加速原理 乘加运算硬件加速,脉冲阵列 ? 脉动阵列并不是一个新鲜的词汇,在计算机体系架构里面已经存在很长时间。 上面讲了一些比较经典的加速方法。下面分享几个已经存在的AI加速芯片的例子,相信这样会更加直观。 AI 芯片实例 TPU ? 这是Google的TPU。 从其论文披露的信息也可以看到,二代TPU在第一代的基础上增加了我们前面说到的剪枝,权重压缩等方面做了很多尝试,也是一个非常经典的云端AI加速芯片的例子。 这一个是Rokid和杭州国芯共同打造的一颗针对智能音箱的SoC,AI加速只是里面的一个功能。通过上面右边的框图可以看到里面集成了Cadence的DSP,还有自己设计的语音加速硬件IP——NPU。 这款芯片还集成了一些实现智能音箱必要的interface,最值得一提的是在SiP层面封装了Embedded DRAM,可以更好的在系统层面实现数据的交互,实现存储和运算的加速,也实现了AI加速的功能。

    92630发布于 2019-05-14
  • 来自专栏云上修行

    vLLM: 加速AI推理的利器

    bitsandbytes}][--dtype {auto,half,float16,bfloat16,float,float32}] [--kv-cache-dtype {auto,fp8,fp8_e5m2 * "npcache"将以pytorch格式加载权重并存储numpy缓存以加速加载。* "dummy"将以随机值初始化权重,主要用于性能分析。 --kv-cache-dtype {auto,fp8,fp8_e5m2,fp8_e4m3} kv缓存存储的数据类型。 CUDA 11.8+支持fp8(=fp8_e4m3)和fp8_e5m2。 FP8_E5M2(未缩放)仅在CUDA版本大于11.8时支持。在ROCm(AMD GPU)上,相反,支持FP8_E4M3以满足常见的推理标准。

    3.3K10编辑于 2024-07-22
  • 来自专栏人人都是极客

    解密AI芯片的加速原理

    下面我们从以上三点阐述下目前比较主流的深度学习在芯片层面实现加速的方法。 AI 芯片的加速原理 乘加运算硬件加速,脉冲阵列 ? 脉动阵列并不是一个新鲜的词汇,在计算机体系架构里面已经存在很长时间。 上面讲了一些比较经典的加速方法。下面分享几个已经存在的AI加速芯片的例子,相信这样会更加直观。 AI 芯片实例 TPU ? 这是Google的TPU。 从其论文披露的信息也可以看到,二代TPU在第一代的基础上增加了我们前面说到的剪枝,权重压缩等方面做了很多尝试,也是一个非常经典的云端AI加速芯片的例子。 这一个是Rokid和杭州国芯共同打造的一颗针对智能音箱的SoC,AI加速只是里面的一个功能。通过上面右边的框图可以看到里面集成了Cadence的DSP,还有自己设计的语音加速硬件IP——NPU。 这款芯片还集成了一些实现智能音箱必要的interface,最值得一提的是在SiP层面封装了Embedded DRAM,可以更好的在系统层面实现数据的交互,实现存储和运算的加速,也实现了AI加速的功能。

    4.5K30发布于 2018-09-25
  • 来自专栏ATYUN订阅号

    三星收购了西班牙AI网络分析公司Zhilabs,以加速发展AI5G

    三星宣布收购西班牙网络分析公司Zhilabs,该公司利用AI监控运营商的网络性能和无数服务的数据流量。该交易的条款没有披露。 就其本身而言,三星毫不掩饰其在5G和AI领域的意图。例如,它最近拨出220亿美元用于投资一系列变革性技术,包括5G和AI。 另外,三星最近发布了Exynos Modem 5100,这是一款全面支持5G设备的无线芯片。 三星已经在智能家居技术上投入了大量资金,并且越来越多地推动联网汽车和更广泛的物联网(IoT)领域。 超高速,低延迟的5G对于这一成功至关重要,能够测量网络质量将在维持需要始终开启的设备和软件的性能方面发挥关键作用。 “5G将实现前所未有的服务,这些服务归功于指数数据流量的产生,而自动化和智能网络分析工具对此至关重要,”三星网络业务总裁兼负责人Youngky Kim补充说,“收购Zhilabs将帮助三星满足这些需求,

    57420发布于 2018-11-05
  • 来自专栏机器之心

    详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能

    在这篇文章中,我们将跟着作者的思路回顾一下相关 AI 硬件公司,看看都有哪些公司在这一领域发力。 这是本系列博客的第四篇,主要介绍了 AI 加速器相关公司。 全球科技行业最热门的领域之一是 AI 硬件, 本文回顾了 AI 硬件行业现状,并概述相关公司在寻找解决 AI 硬件加速问题的最佳方法时所做的不同赌注。 AI 芯片领域,或者更准确地说,AI 加速器领域(到目前为止,它已经不仅仅是芯片)包含了无数的解决方案和方法,所以让我们回顾这些方法的主要原则。 GraphCore GraphCore 是首批推出商业 AI 加速器的初创公司之一,这种加速器被称为 IPU(Intelligent Processing Unit)。 图源:ZDNet 详解 AI 加速器(一):2012 年的 AlexNet 到底做对了什么? 详解 AI 加速器(二):为什么说现在是 AI 加速器的黄金时代?

    2.6K30编辑于 2022-03-04
  • 来自专栏量化投资与机器学习

    5倍提升,加速CPython!Quant如何看?

    微软将资助一个由Guido van Rossum、Mark Shannon(加速计划的提出者,精通 Python 性能研究)、Eric Snow(Python 核心开发者之一、微软高级工程师)等多人组成的小团队来加速 加速CPython! 在今年2021 Python语言峰会上,Guido Van Rossum在表示:他打算在2022年10月发布3.11版本时将快CPython的速度提高1倍。 在接下来的四年里,他的目标是将CPython的速度提高到原来的5倍。 相关阅读 最新! 想学CPython,Python之父Guido亲上阵 整个计划被称为“香农计划”(即“Shannon Plan”,得名于提出者),期望花 4 年时间把 Python 提速 5 倍,即每年 1.5 倍。 benchmarksgame-team.pages.debian.net/benchmarksgame/fastest/gpp-python3.html 量化圈内人评价 Citadel的前量化分析师Jeffrey Ryan评价道,Python的速度提高2-5倍在金融领域不会产生多大影响

    1.5K10发布于 2021-07-07
  • 来自专栏程序员泥瓦匠

    5分钟了解 CDN 加速原理

    二方面把获取的数据返回给客户端,完成数据服务过程) 通过以上的分析我们可以得到,为了实现对普通用户透明(使用缓存后用户客户端无需进行任何设置)访问,需要使用 DNS(域名解析)来引导用户来访问 Cache 服务器,以实现透明的加速服务 智能调度 DNS(比如 f5 的 3DNS) 智能调度DNS是CDN服务中的关键系统.当用户访问加入CDN服务的网站时,域名解析请求将最终由 “智能调度DNS”负责处理。 缓存功能服务 负载均衡设备(如lvs,F5的BIG/IP) 内容Cache服务器(如squid) 共享存储 三、名词解释 CNAME记录(CNAME record) CNAME即别名( Canonical CNAME域名 接入CDN时,在CDN提供商控制台添加完加速域名后,您会得到一个CDN给您分配的CNAME域名, 您需要在您的DNS解析服务商添加CNAME记录,将自己的加速域名指向这个CNAME域名, 这样该域名所有的请求才会都将转向CDN的节点,达到加速效果。

    2.3K10编辑于 2021-12-17
  • 来自专栏往期博文

    【目标检测】使用TensorRT加速YOLOv5

    很早就听说TensorRT可以加速模型推理,但一直没时间去进行实践,今天就来把这个陈年旧坑填补一下。 背景知识 在实践之前有必要了解一下相关知识。 TensorRT支持几乎所有主流深度学习框架,将python框架转换成C++的TensorRT,从而可以加速推理。 如果提示没装pycuda,还需要再安装一下 pip install pycuda YOLOv5使用TensorRT加速 下面内容有点乱,是我实验时的草稿,明天再起来整理。 ---- python export.py --weights yolov5s.pt --data data/coco128.yaml --include engine --device 0 --half 程序花费时间8.395954370498657秒 半精度 python detect.py --weights yolov5s.engine 程序花费时间4.830101728439331秒 全精度

    5.5K60编辑于 2022-11-21
  • 来自专栏量子发烧友

    量子+AI:量子计算加速机器学习

    机器学习技术的快速发展有赖于计算能力的提高,而量子计算因其独特性质,使得它无论在数据处理能力还是数据储存能力,都远超经典计算,从而可以解决目前机器学习算法处理海量大数据时计算效率低的问题,也有利于开发更加智能的机器学习算法,将大力加速机器学习的发展 (5)学习中的时间限制 使用机器学习系统无法立即做出准确的预测。请记住,它是通过历史数据学习的。数据越大,暴露给这些数据的时间越长,其性能就会越好。 通过量子算法使某些在经典计算机上不可计算的问题变为可计算的, 从而大幅降低机器学习算法的计算复杂度, 如量子退火(quantum annealing,QA)算法、Gibbs采样等; (2) 量子理论的并行性等加速特点直接与某些机器学习算法深度结合 (5)代价函数 (cost function) 估计:在得到经典后处理结果之后,研究人员对代价函数进行评估。 plot_histogram(counts) 3.3 Paddle Quantum Paddle Quantum(量桨)是一种开放源代码的机器学习工具包,旨在帮助数据科学家在量子计算应用程序中训练和开发AI

    1.9K40编辑于 2023-02-24
  • 来自专栏量子位

    浪潮发布OpenStack AI云平台,加速行业AI进程

    △ 浪潮集团副总裁 彭震 云+AI融合基础架构加速行业AI落地 随着AI在社会生产生活各环节的渗透加速,可以预见的是AI将会快速步入到“应用繁荣期”,商业组织与科研机构的AI技术与应用研发将趋向多样化, 因此,如何将云计算与AI融合,使得IT基础架构既能具备云的灵活性,也能保留AI所需的高性能,将成为推动AI真正成为一项社会性变革技术的重点所在。 此次浪潮发布的OpenStack AI云平台,可帮助行业AI用户快速便捷的构建CPU+GPU的弹性异构云环境,并实现对异构计算资源池的动态调度与分配,支撑数据管理、模型训练、模型部署等各类AI应用场景。 △ 浪潮OpenStack AI云平台架构 高集成度进一步简化AI开发 浪潮自主开发的AIStation在集成度上有显著提升,极大的降低了AI开发难度并简化操作。 浪潮AI&HPC总经理刘军表示:“浪潮OpenStack AI云平台为用户提供了面向未来的云+AI融合基础架构,使其在开源云平台上能够简单、快速构建易用、先进、完整的AI开发环境,赋能更多行业快速利用人工智能技术进行产品服务开发

    97540发布于 2018-09-29
  • 来自专栏CODING DevOps

    X加速计划 | 聚焦机器人& AI 领域的产业加速营!

    海归创业学院在第一期人工智能主题班成功经验基础上,今年强势联合科沃斯共同主办X 加速计划。         X加速计划 深圳第一期 上海第二期 同步开始招募 加速计划内容 PROJECT COURSE 加速计划流程 PROJECT SCHEDULE 备注:深圳、上海两地课程时间基本一致。 AI人工智能:声学处理、语音识别、语义理解、计算机视觉 3. 大数据:基于大数据基础,AI为引擎的消费、金融、安防等行业应用 项目筛选基本情况 1. 创始团队占股超过50%; 2. 截止2018年5月10日,公司创立时间不超过5年; 4. 融资阶段在天使轮之后,B轮之前。 X加速计划仅针对创始人,创始人,创始人,重要的事情说三遍; 3. 加速计划不收取课程费用,活动期间餐费、住宿费、交通费、学杂费自理; 4.

    38710编辑于 2023-05-17
  • 来自专栏存储公众号:王知鱼

    Micron:SSD替换主存,加速AI落地

    Fig-1 AI/ML 处理数据量越来越多,一说数据每年增长430x。 IGB 在 AI 领域受到关注,尤其是在图学习和图计算的研究中,因其能够帮助研究者比较不同算法的效果和效率。该数据集的多样性和真实场景的代表性使其成为图相关任务的一个重要基准。 Fig-2 NVIDIA 加速计算常见的存储案例。 线程) • 16x Micron 96GB DDR5 DIMM(96GB的DIMM比较罕见,高端机型) • 4x Micron 9550 PCIe Gen5 NVMe SSD • Ubuntu 20.04.6 和不少AI从业人员交流,共性认知是,尚未出现 Killer APP,部分原因是技术本身成熟度尚未达标,另一部分可能还是基础设施建设成本高昂,“贫穷限制了想象”。

    45610编辑于 2025-02-11
  • 亚马逊Nova AI挑战赛加速生成式AI发展

    亚马逊Nova AI挑战赛加速生成式AI领域发展首届全球大学竞赛,致力于推动安全、可信的AI辅助软件开发。发布时间:2025年3月10日在负责任AI发展框架下,通过与顶尖大学合作以培育突破性研究。 虽然该挑战赛将探索生成式AI的多个方面,但今年的重点聚焦于“可信AI:推进安全的AI辅助软件开发,以构建更安全、更可靠的应用程序”。 、快节奏的锦标赛,旨在加速面向实际应用的学术研究。 挑战赛本质上是跨学科的——位于负责任AI、生成式AI、安全、对话式AI和自动化软件开发的交叉点。因此,它汇集了在多个研究领域具有专业知识的团队,为竞赛带来了不同的才能和视角。 研究领域对话式AI安全、隐私和滥用防护标签生成式AI负责任AI大语言模型学术合作某Nova关于作者撰稿人

    9410编辑于 2026-01-13
  • 来自专栏MixLab科技+设计实验室

    AI 加速你的想法 | MixLab+AI 第39期

    Knowledge / def mix( ): 本期收录 新增13+ NO. 39 设计流程的加速包 #每周ai工具 快速验证想法的工具——UIzard,基于图像识别,将线框图快速转化成高保真原型,帮助设计师能快速验证可行性 设计流程的加速包 | 每周ai工具 #游戏##技术美术 Alex Strook 最近分享了模拟油画的 NPR(非现实渲染)技术项目,非常赞。 https://drive.google.com/file/d/1tNJu7gNk-iphWo_Y5eRboJq0nSALyFud/view #时尚潮流趋势##机器学习# 时尚是潮流驱动的,大多数零售商按季节经营 包括AI产品、AI技术、AI场景、AI投资事件、AI的思维方式等。MIX的主题包括:AR、VR、计算设计、计算广告、智能设计、智能写作、虚拟偶像等。 加入星球后,即可加入Mix读书会。

    61341发布于 2020-10-19
  • 来自专栏计算机视觉战队

    详解AI加速器:为什么说现在是AI加速器的黄金时代?

    选自 Medium 作者:Adi Fuchs 机器之心编译 机器之心编辑部 在上一篇文章中,前苹果工程师、普林斯顿大学博士 Adi Fuchs 解释了 AI 加速器诞生的动机。 如今,随着越来越多表现出「良好」特性的应用程序成为加速的目标,加速器越来越受关注:视频编解码器、数据库处理器、加密货币矿机、分子动力学,当然还有人工智能。 是什么让 AI 成为加速目标? 如果你想使用尖端的制程(例如现在的 5nm CMOS),耗资将达到数千万美元,不论成功或失败。幸运的是,对于人工智能来说,花钱不是问题。 AI 是一个「可加速」的应用领域 AI 程序具有使其适用于硬件加速的所有属性。首先最重要的是,它们是大规模并行的:大部分计算都花在张量运算上,如卷积或自注意力算子。 如果没有适当的加速硬件来满足你的 AI 需求,对 AI 进行实验和发现的能力将受到限制。

    1.9K20编辑于 2022-03-04
  • yolov5s转tensorrt加速过程记录

    yolov5地址:https://github.com/ultralytics/yolov5 tensorrt地址:https://github.com/wang-xinyu/tensorrtx 测试环境 tensorrt7.0.0.11 onnx==1.8.0 基本流程:https://github.com/wang-xinyu/tensorrtx里面有readme照着走即可,出现问题自己解决,其中我用的yolov5s.pt /yolov5 -s这个执行后找不到cuda路径,怀疑没有读取bashrc变量,然后去掉sudo即可 第三个问题:图片路径别忘了改,我随便找到yolov3的dog.jpg和horse.jpg测试已经正常检测出

    13910编辑于 2025-07-18
领券