首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据人生

    加速MapReduce2

    案例1:对Map的输出进行排序时的CPU缓存本地性加速 此案例中,我们发现WordCount上性能的降低:某个作业在MR1上只需运行375秒,在MR2集群上需要运行475秒,这比MR1上多运行了25% 更小的块可能更加适合CPU缓存,也就是说,当排序的时候,所有的内存加速都非常快,因此排序过程也非常快。更大的块可能不适合CPU缓存加速,这意味内存加速会在更高级别的缓存中进行,或者直接在内存中进行。 以前的版本中,为了加速map输出记录,我发现首先会存储第n个记录在meta数组中的索引,接着存放记录key的位置,接着存放value在原始数据的位置。 而缓存外内存加速的代价大于缓存内额外的内存移动的代价,因此这种方法值得一试。        为什么会加速呢?这是因为排序时,我们将可以操作一段连续的内存空间,而操作其中一块时,可以进行CPU缓存加速。 以前方法在进行寻址或者移动时,因为缓存区的元数据区段比较大,可能没法利用CPU缓存加速。 这个小的改变就像魔术一样。

    53110编辑于 2022-09-23
  • 来自专栏刘旷专栏

    AI主播、AI记者、AI编辑,传媒AI加速

    但随着AI的深入,Microsoft News方面逐渐转向 AI,其鼓励出版商和新闻工作者使用AI辅助工作,或用AI替代人工进行内容的处理、过滤、发表。 微软作为全球名企,每个改变都会引起其他企业效仿和学习,这一次AI替代编辑人员的改变也将影响传媒行业的发展。国外传媒AI之路是如此,国内传媒AI化之路也在逐渐升温。 传媒行业正在AI化 目前为止,AI对于各行各业起到的作用都是正面性的,传媒行业也不例外。 AI化。 传媒行业加速AI化,本质上是主流媒体、科技巨头为强化自身竞争实力所作出的改变,而新趋势将带来新格局,又一轮竞争开始了。 文/刘旷公众号,ID:liukuang110

    1.2K30发布于 2020-06-28
  • 来自专栏范传康的专栏

    Llama2.c 学习笔记2: 编译加速

    llama2.c使用纯C编写,不过不同的编译优化能够提供不同的加速性能。 相比原始的c编译(O3优化),叠满Fast,OMP,GNUC11后有了近10倍的加速。centos 安装 gcc 9.xubuntu20,22好像默认安装的gcc都是高版本的没有问题。 /run out/stories110M.bin图片2. Fast: 13.30 tok/sgcc -Ofast -o run run.c -lm.

    3.9K61编辑于 2023-08-04
  • 来自专栏CSDN技术头条

    Facebook开源Torchnet,加速AI研究

    近日,Facebook 发表了一篇学术论文和一篇博客帖子详述Torchnet——一个用于简化人工智能——深度学习的新型开源软件。 图片描述 深度学习涉及海量数据,比如图片之上训练人工神经网络是目前的一大技术趋势。利用神经网络来预测新的数据,相比于构建一个全新的深度学习框架,Facebook决定在Torch基础之上来构建深度学习框架,Torch是一个Facebook之前开源的源程序库。 Facebook人工智能研究实验室深度学习专家Laurens van der Maaten表示:“深度学习让一切变得很容易,

    64690发布于 2018-02-12
  • 来自专栏人人都是极客

    解密AI芯片的加速原理

    下面我们从以上三点阐述下目前比较主流的深度学习在芯片层面实现加速的方法。 AI 芯片的加速原理 乘加运算硬件加速,脉冲阵列 ? 脉动阵列并不是一个新鲜的词汇,在计算机体系架构里面已经存在很长时间。 上面讲了一些比较经典的加速方法。下面分享几个已经存在的AI加速芯片的例子,相信这样会更加直观。 AI 芯片实例 TPU ? 这是Google的TPU。 TPUv2 ? 上图展示的第二代TPU。从图中可以很直观的看到,它用到了我们前面所说到的HBM Memory。 这一个是Rokid和杭州国芯共同打造的一颗针对智能音箱的SoC,AI加速只是里面的一个功能。通过上面右边的框图可以看到里面集成了Cadence的DSP,还有自己设计的语音加速硬件IP——NPU。 这款芯片还集成了一些实现智能音箱必要的interface,最值得一提的是在SiP层面封装了Embedded DRAM,可以更好的在系统层面实现数据的交互,实现存储和运算的加速,也实现了AI加速的功能。

    92630发布于 2019-05-14
  • 来自专栏云上修行

    vLLM: 加速AI推理的利器

    * "npcache"将以pytorch格式加载权重并存储numpy缓存以加速加载。* "dummy"将以随机值初始化权重,主要用于性能分析。 --kv-cache-dtype {auto,fp8,fp8_e5m2,fp8_e4m3} kv缓存存储的数据类型。 CUDA 11.8+支持fp8(=fp8_e4m3)和fp8_e5m2。 FP8_E5M2(未缩放)仅在CUDA版本大于11.8时支持。在ROCm(AMD GPU)上,相反,支持FP8_E4M3以满足常见的推理标准。 使用BlockSpaceMangerV2

    3.3K10编辑于 2024-07-22
  • 来自专栏人人都是极客

    解密AI芯片的加速原理

    下面我们从以上三点阐述下目前比较主流的深度学习在芯片层面实现加速的方法。 AI 芯片的加速原理 乘加运算硬件加速,脉冲阵列 ? 脉动阵列并不是一个新鲜的词汇,在计算机体系架构里面已经存在很长时间。 上面讲了一些比较经典的加速方法。下面分享几个已经存在的AI加速芯片的例子,相信这样会更加直观。 AI 芯片实例 TPU ? 这是Google的TPU。 TPUv2 ? 上图展示的第二代TPU。从图中可以很直观的看到,它用到了我们前面所说到的HBM Memory。 这一个是Rokid和杭州国芯共同打造的一颗针对智能音箱的SoC,AI加速只是里面的一个功能。通过上面右边的框图可以看到里面集成了Cadence的DSP,还有自己设计的语音加速硬件IP——NPU。 这款芯片还集成了一些实现智能音箱必要的interface,最值得一提的是在SiP层面封装了Embedded DRAM,可以更好的在系统层面实现数据的交互,实现存储和运算的加速,也实现了AI加速的功能。

    4.5K30发布于 2018-09-25
  • 来自专栏机器之心

    详解AI加速器(四):GPU、DPU、IPU、TPU…AI加速方案有无限种可能

    全球科技行业最热门的领域之一是 AI 硬件, 本文回顾了 AI 硬件行业现状,并概述相关公司在寻找解决 AI 硬件加速问题的最佳方法时所做的不同赌注。 Cerebras WSE-2 与 NVIDIA A100 规格比较。 图源:SimpleMachines 该公司的首个 AI 芯片是 Mozart,该芯片针对推理进行了优化,在设计中使用了 16 纳米工艺,HBM2 高带宽内存和 PCIe Gen3x16 尺寸。 2021 年 2 月,NeuReality 推出了 NR1-P,这是一个以 AI 为中心的推理平台。 图源:ZDNet 详解 AI 加速器(一):2012 年的 AlexNet 到底做对了什么? 详解 AI 加速器(二):为什么说现在是 AI 加速器的黄金时代?

    2.6K30编辑于 2022-03-04
  • P2P加速技术概览

    P2P加速技术是一种利用网络中每个参与者的带宽和存储资源来提高数据传输效率的技术。它通过分布式网络架构,允许用户之间直接交换数据,从而减轻中心服务器的负担,提高下载速度和降低延迟。 腾讯云X-P2P产品介绍 腾讯云X-P2P是一款高效的P2P加速产品,旨在为用户提供更快的下载速度和更低的带宽成本。该产品通过智能调度算法,优化数据传输路径,实现快速内容分发。 优势: 高效的带宽利用:X-P2P通过优化传输路径,减少带宽浪费,提升传输效率。 降低延迟:分布式架构减少了数据传输的中间环节,有效降低延迟。 劣势: 对网络环境要求较高:在网络不稳定或带宽受限的环境下,P2P加速效果可能受到影响。 总结 P2P加速技术以其高效的数据传输和成本效益在现代网络中扮演着重要角色。 随着技术的不断进步,P2P加速技术有望在未来实现更广泛的应用和更优的性能表现。

    42510编辑于 2025-07-28
  • 来自专栏量子发烧友

    量子+AI:量子计算加速机器学习

    机器学习技术的快速发展有赖于计算能力的提高,而量子计算因其独特性质,使得它无论在数据处理能力还是数据储存能力,都远超经典计算,从而可以解决目前机器学习算法处理海量大数据时计算效率低的问题,也有利于开发更加智能的机器学习算法,将大力加速机器学习的发展 (2)持续改进 通过机器学习进行持续改进具有许多实际应用。以机器学习系统为例,该系统用于预测特定市场的消费模式。 量子理论的并行性等加速特点直接与某些机器学习算法深度结合, 催生出一批全新的量子机器学习模型,如张量网络、概率图模(probabilistic graphical model, PGM)等。 第 2 步:初始化变量 circuit = QuantumCircuit(2, 2) 第 3 步:添加门 circuit.h(0) circuit.cx(0, 1) circuit.measure plot_histogram(counts) 3.3 Paddle Quantum Paddle Quantum(量桨)是一种开放源代码的机器学习工具包,旨在帮助数据科学家在量子计算应用程序中训练和开发AI

    1.9K40编辑于 2023-02-24
  • 来自专栏量子位

    浪潮发布OpenStack AI云平台,加速行业AI进程

    △ 浪潮集团副总裁 彭震 云+AI融合基础架构加速行业AI落地 随着AI在社会生产生活各环节的渗透加速,可以预见的是AI将会快速步入到“应用繁荣期”,商业组织与科研机构的AI技术与应用研发将趋向多样化, 因此,如何将云计算与AI融合,使得IT基础架构既能具备云的灵活性,也能保留AI所需的高性能,将成为推动AI真正成为一项社会性变革技术的重点所在。 此次浪潮发布的OpenStack AI云平台,可帮助行业AI用户快速便捷的构建CPU+GPU的弹性异构云环境,并实现对异构计算资源池的动态调度与分配,支撑数据管理、模型训练、模型部署等各类AI应用场景。 △ 浪潮OpenStack AI云平台架构 高集成度进一步简化AI开发 浪潮自主开发的AIStation在集成度上有显著提升,极大的降低了AI开发难度并简化操作。 浪潮AI&HPC总经理刘军表示:“浪潮OpenStack AI云平台为用户提供了面向未来的云+AI融合基础架构,使其在开源云平台上能够简单、快速构建易用、先进、完整的AI开发环境,赋能更多行业快速利用人工智能技术进行产品服务开发

    97540发布于 2018-09-29
  • 来自专栏CODING DevOps

    X加速计划 | 聚焦机器人& AI 领域的产业加速营!

    海归创业学院在第一期人工智能主题班成功经验基础上,今年强势联合科沃斯共同主办X 加速计划。         X加速计划 深圳第一期 上海第二期 同步开始招募 加速计划内容 PROJECT COURSE 加速计划流程 PROJECT SCHEDULE 备注:深圳、上海两地课程时间基本一致。 加速计划导师 MENTORS & EXPERTS (排名不分先后) 报名须知 NOTICES OF REGISTRATION 项目招募方向 1. 机器人:感知、运动控制等技术、核心部件、本体 2. AI人工智能:声学处理、语音识别、语义理解、计算机视觉 3. 大数据:基于大数据基础,AI为引擎的消费、金融、安防等行业应用 项目筛选基本情况 1. 创始团队占股超过50%; 2. 项目报名截止时间6月12日24:00,请知悉; 2. X加速计划仅针对创始人,创始人,创始人,重要的事情说三遍; 3. 加速计划不收取课程费用,活动期间餐费、住宿费、交通费、学杂费自理; 4.

    38710编辑于 2023-05-17
  • 来自专栏存储公众号:王知鱼

    Micron:SSD替换主存,加速AI落地

    Fig-1 AI/ML 处理数据量越来越多,一说数据每年增长430x。 IGB 在 AI 领域受到关注,尤其是在图学习和图计算的研究中,因其能够帮助研究者比较不同算法的效果和效率。该数据集的多样性和真实场景的代表性使其成为图相关任务的一个重要基准。 Fig-2 NVIDIA 加速计算常见的存储案例。 2. 饱和点:性能在队列深度2@128时达到饱和,约3000 IOPS。之后,即使继续增加队列深度,性能提升不明显。 3. 线性扩展:在低队列深度区域(2@22@64),性能几乎呈线性增长。 和不少AI从业人员交流,共性认知是,尚未出现 Killer APP,部分原因是技术本身成熟度尚未达标,另一部分可能还是基础设施建设成本高昂,“贫穷限制了想象”。

    45610编辑于 2025-02-11
  • 亚马逊Nova AI挑战赛加速生成式AI发展

    亚马逊Nova AI挑战赛加速生成式AI领域发展首届全球大学竞赛,致力于推动安全、可信的AI辅助软件开发。发布时间:2025年3月10日在负责任AI发展框架下,通过与顶尖大学合作以培育突破性研究。 虽然该挑战赛将探索生成式AI的多个方面,但今年的重点聚焦于“可信AI:推进安全的AI辅助软件开发,以构建更安全、更可靠的应用程序”。 、快节奏的锦标赛,旨在加速面向实际应用的学术研究。 挑战赛本质上是跨学科的——位于负责任AI、生成式AI、安全、对话式AI和自动化软件开发的交叉点。因此,它汇集了在多个研究领域具有专业知识的团队,为竞赛带来了不同的才能和视角。 研究领域对话式AI安全、隐私和滥用防护标签生成式AI负责任AI大语言模型学术合作某Nova关于作者撰稿人

    9410编辑于 2026-01-13
  • 来自专栏MixLab科技+设计实验室

    AI 加速你的想法 | MixLab+AI 第39期

    Knowledge / def mix( ): 本期收录 新增13+ NO. 39 设计流程的加速包 #每周ai工具 快速验证想法的工具——UIzard,基于图像识别,将线框图快速转化成高保真原型,帮助设计师能快速验证可行性 设计流程的加速包 | 每周ai工具 #游戏##技术美术 Alex Strook 最近分享了模拟油画的 NPR(非现实渲染)技术项目,非常赞。 包括AI产品、AI技术、AI场景、AI投资事件、AI的思维方式等。MIX的主题包括:AR、VR、计算设计、计算广告、智能设计、智能写作、虚拟偶像等。 加入星球后,即可加入Mix读书会。

    61341发布于 2020-10-19
  • 来自专栏计算机视觉战队

    详解AI加速器:为什么说现在是AI加速器的黄金时代?

    此外,由于电子移动的距离更小,我们最终得到的晶体管快了 k 倍,最重要的是——它的功率下降到 1/k^2加速器是专门面向特定应用或领域的芯片,也就是说,它们不会运行所有应用(例如不运行操作系统),而是在硬件设计层面就考虑一个很窄的范围,因为:1)它们的硬件结构仅满足特定任务的操作;2)硬件和软件之间的接口更简单 如今,随着越来越多表现出「良好」特性的应用程序成为加速的目标,加速器越来越受关注:视频编解码器、数据库处理器、加密货币矿机、分子动力学,当然还有人工智能。 是什么让 AI 成为加速目标? AI 是一个「可加速」的应用领域 AI 程序具有使其适用于硬件加速的所有属性。首先最重要的是,它们是大规模并行的:大部分计算都花在张量运算上,如卷积或自注意力算子。 如果没有适当的加速硬件来满足你的 AI 需求,对 AI 进行实验和发现的能力将受到限制。

    1.9K20编辑于 2022-03-04
  • 来自专栏机器人课程与技术

    ROS 2 感知节点的硬件加速

    ROS 2 提供了各种预构建的节点(Components更具体地说),可用于轻松构建感知管道。 之前的一篇文章介绍了硬件加速如何帮助加速 ROS 2 计算图(包括感知图)。 关于感知模块在 ROS 2 节点中对硬件加速进行基准测试 为了比较 ROS 2Nodes在 FPGA 和 GPU 加速器上的感知任务,我们选择 AMD 的 Kria KV260 FPGA 板和 NVIDIA 进一步改进 ROS 2 中的硬件加速 就感知而言,FPGA 的性能似乎明显优于其加速同类产品,但是,与可重新编程的硬件一样,这是以硬件-软件协同设计Nodes的复杂性为代价的。 为机器人专家简化开发流程需要创建通用架构和约定,这就是我们为 REP-2008 - ROS 2 硬件加速架构和约定做出贡献的原因。 进一步改进 ROS 2 需要将计算技术以正确的方式组合在一起,并针对每项任务:CPU、GPU 和 FPGA。如果您对找到正确的组合感兴趣,请关注ROS 2 硬件加速工作组。

    1.1K40编辑于 2022-05-01
  • 来自专栏Tapdata

    TapData × 梦加速计划 | 与 AI 共舞,TapData 携 AI Ready 实时数据平台亮相加速

    4月10日,由前海产业发展集团、深圳市前海梦工场、斑马星球科创加速平台等联合发起的「梦加速计划·下一位独角兽营」正式启航。 未来 5 个月,将通过增长加速AI 赋能、产品打磨、融资对接等多个维度,全面提升项目创新能力与市场竞争力,助力企业迈入快速增长轨道。 TapData 基于 MCP 的 AI-Ready 实时数据平台 在 AI 加速重塑企业运作方式的今天,数据的实时性、完整性与可用性,直接决定着智能推理和决策的效率与精准度。 梦加速计划:助力独角兽梦想加速落地 「梦加速计划·下一位独角兽营」不仅是一场深港协同创新的盛会,更是一次连接科研-产业-资本的系统加速。 TapData 也将在此次加速过程中,深度融入梦工场创新生态,对话 30+ 投资机构、产业龙头与科研平台,探索 AI 时代实时数据新价值,携手前海与香港,迈向下一个增长新高峰。

    24500编辑于 2025-04-19
  • 来自专栏防止网络攻击

    【玩转 GPU】GPU加速AI开发实践

    2.无缝低延迟命名空间扩展到对象存储HK-WEKA数据平台的集成对象存储提供经济、大容量和快速访问,以便在深度学习训练过程中存储和保护大量训练集。 二、NVIDIA Riva SDKNVIDIA Riva 是一个 GPU 加速的 SDK,用于构建和部署完全可定制的实时语音 AI 应用程序,这些应用程序可以实时准确地交付。 与 NVIDIA V100 GPU 上的 Tacotron 2 和 WaveGlow 模型相比,它使用非自回归模型在 NVIDIA A100 GPU 上提供 12 倍的性能提升。 NVIDIA GPU 加速科学计算,释放“AI + Science”巨大潜力“AI + Science” 的科学研究范式是当下的前沿热点。 深势科技作为AI+Science范式的典型企业,致力于以算力算法的进展切实赋能科研突破与产业升级,NVIDIA GPU 助力深势科技加速实现技术迭代与产品部署。

    1.6K00编辑于 2023-05-27
  • 芯动力再创辉煌:M.2 AI加速卡赢得海外知名企业青睐!

    近日,芯动力迎来了一个令人振奋的喜讯——经过不懈努力和持续创新,芯动力与海外一家知名企业成功交付了首批M.2 AI加速卡订单! 芯动力AE7100芯片与M.2 AI加速卡的结合,正是对这一挑战的有力回应。AE7100芯片搭载M.2 AI加速卡直接应用于摄像机后的实时处理板上,能够瞬时计算完成摄像头产生的大量数据。 这款基因检测模组采用了多个M.2 AI加速卡,使其能够以极低的功耗、极高的速度实时完成所有的计算。 (M.2 AI加速卡)而AzureBlade M.2 AI加速卡作为一款功能强大的产品,同样在基因检测领域发挥着关键作用。 我们相信,随着更多领域的广泛应用与实践,M.2 AI加速卡必将在未来的道路上继续创造新的辉煌!

    1K10编辑于 2024-01-25
领券