首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    Mistral的首个强推理模型:拥抱开源,推理速度快10

    机器之心报道 编辑:泽南 强推理终于要卷速度了。 大模型强推理赛道,又迎来一位重量级玩家。 借助 Le Chat 中的 Flash Answers,Magistral Medium 还能实现比大多数竞争对手多达 10 倍的 token 吞吐量。 Mistral 称,这基本可以实现大规模的实时推理和用户反馈。 有趣的是,Magistral 的核心设计原则是使用与用户相同的语言进行推理。在未经任何处理的数学和编程问题上进行强化学习通常会导致模型在推理过程中出现混合语言。 看起来,推理速度比竞品快 10 倍的竞争优势确实很大。 Magistral API 与其他领先 LLM 的推理成本对比。

    28010编辑于 2025-06-12
  • 来自专栏贾志刚-OpenCV学堂

    YOLOv10模型结构详解与推理部署实现

    YOLOv10模型 早晨看到一堆推文,说YOLOv10已经发布了,吓我一跳,这个世界变化这么快, 然后快速的看一下相关的文档,发现YOLOv10 相比YOLOv8有两个最大的改变分别是 添加了PSA层跟 CIB层 去掉了NMS 导出与部署 github上YOLOv10的地址如下 https://github.com/THU-MIG/yolov10 下载源码,直接用下面的代码就可以导出ONNX格式模型了, ").export(format="onnx", dynamic=True) 单纯从推理上看 YOLOv10的确比YOLOv8简单很多,有点SSD模型得既视感。 推理代码实现如下: import cv2 as cv import numpy as np from openvino.runtime import Core # load model labels 然后下载它的源码之后,你会发现里面很多YOLOv8的包跟代码注释连名字都还没有改过来,特别是推理的演示代码里面还是YOLOv8的,我晕倒,能专业点不!

    2.6K10编辑于 2024-05-28
  • 来自专栏OpenCV与AI深度学习

    YOLOv10在PyTorch和OpenVINO中推理对比

    导 读 本文主要介绍如何将YOLOv10模型转为OpenVINO支持的模型并做推理时间对比。 一对一头:在推理过程中为每个对象生成一个最佳预测,无需 NMS,从而减少延迟并提高效率。 主要功能 无 NMS 训练:利用一致的双重分配来消除对 NMS 的需求,从而减少推理延迟。 模型支持: YOLOv10 有多种模型,可满足不同的应用需求: YOLOv10-N:用于资源极其有限环境的纳米版本。 YOLOv10-S:兼顾速度和精度的小型版本。 YOLOv10-M:通用中型版本。 YOLOv10-B:平衡型,宽度增加,精度更高。 YOLOv10-L:大型版本,精度更高,但计算资源增加。 YOLOv10-X:超大型版本可实现最高精度和性能。 否则将产生错误的推理结果。

    1.7K10编辑于 2024-06-21
  • 来自专栏机器之心

    英伟达发布ChatGPT专用GPU,推理速度提升了10

    为 AIGC 设计专用算力 生成式 AI(AIGC )的发展正在改变科技公司对于算力的需求,英伟达一次展示了四种针对 AI 任务的推理平台,它们都使用了统一的架构。 与前者相比,现在一台搭载四对 H100 和双 NVLINK 的标准服务器速度能快 10 倍,可以将大语言模型的处理成本降低一个数量级,」黄仁勋说道。 它为运行 TB 级数据的应用提供了高达 10 倍的性能,为量子 - 经典研究人员解决世界上最复杂的问题提供了更多动力。

    1.5K50编辑于 2023-03-29
  • 来自专栏罗西的思考

    NVIDIA HugeCTR,GPU 版本参数服务器 --(10)--- 推理架构

    [翻译] NVIDIA HugeCTR,GPU 版本参数服务器 --(10)--- 推理架构 目录 [翻译] NVIDIA HugeCTR,GPU 版本参数服务器 --(10)--- 推理架构 0x00 而且我们之前都是分析分布式训练,此处恰好可以看看分布式推理。 HugeCTR 后端通过使用在多个模型实例之间共享的嵌入缓存来支持跨多 GPU 的并发模型推理。 可扩展的后端:HugeCTR 提供的推理接口可以很容易地与后端 API 集成,这允许使用 Python 或 C++ 使用任何执行逻辑扩展模型。 轻松部署新模型:更新模型应尽可能透明,不应影响推理性能。 HugeCTR 推理设计架构 在实际应用中,参数服务器用于加载所有模型的嵌入表。由于不同的模型在不同的应用场景下通过训练会得到不同的嵌入表,因此在推理过程中会产生很高的内存开销。

    87810编辑于 2022-05-09
  • 来自专栏人人都是架构师

    HugggingFace 推理 API、推理端点和推理空间使用介绍

    本文将介绍 HuggingFace 的推理 API、推理端点和推理空间的使用方法。 页面小组件 推理 API 有两种使用方式,一种是在模型页面的右侧找到推理 API 的小组件页面,初始界面如下图所示: 我们可以在这个页面中上传图片,然后就可以看到模型进行推理运行,等一会后推理结果就出来了 信息确认无误后点击Create Endpoint按钮创建推理端点,创建成功后可以进入推理端点的详情页面看到如下信息: 其中Endpoint URL就是部署好的推理端点地址,我们可以跟调用推理 API Docker:推理空间也可以使用 Docker 容器进行部署,它内部支持了 10 种模版。 Static:静态页面,我理解是包括 Html、Js、Css 等前端资源来作为页面展示。 总结 本文介绍了 HuggingFace 的推理 API、推理端点和推理空间的使用方法,推理 API 是免费的,使用 HuggingFace 自建的 API 服务,推理端点是部署自己专属的 API 服务

    4.4K40编辑于 2023-09-17
  • 来自专栏CreateAMind

    因果推理比概率推理更难吗?

    统计和因果推理中的许多任务可以被解释为合适的形式语言中的蕴含问题。我们问,从计算的角度来看,对于因果概率语言来说,这些问题是否比纯概率(或“关联”)语言更困难。 尽管从多种意义上讲,因果推理确实更复杂——无论是表达上的还是推理上的——我们表明因果蕴涵(或可满足性)问题可以系统地、稳健地简化为纯粹的概率问题。因此,计算复杂性不会增加。 毫无争议的是,因果推理比纯粹的概率或统计推理更困难。后者似乎已经足够困难了:估计概率、根据过去的观察预测未来事件、确定统计显着性、在统计假设之间做出裁决——这些已经是艰巨的任务,长期陷入争议。 因果推理问题似乎只会让我们的任务变得更加困难。推断因果效应、预测干预结果、确定因果方向、学习因果模型——这些问题通常需要统计推理,但也对研究者提出更多要求。 从推理的角度来看,概率信息远远不能确定因果信息。 统计推断和因果推断的一个共同特征是,每种方法最突出的方法都可以(至少部分地)理解为试图将归纳问题转化为演绎问题。

    27810编辑于 2024-03-25
  • 来自专栏芯智讯

    AI推理速度提升超10倍,Groq LPU能否取代英伟达GPU?

    其最具特色之处在于,采用了全新的Tensor Streaming Architecture (TSA) 架构,以及拥有超高带宽的SRAM,从而使得其对于大模型的推理速度提高了10倍以上,甚至超越了英伟达的 推理速度比GPU快10倍,功耗仅1/10 据介绍,Groq的大模型推理芯片是全球首个LPU(Language Processing Unit)方案,是一款基于全新的TSA 架构的Tensor Streaming Groq表示,相对于其他云平台厂商的大模型推理性能,基于其LPU芯片的云服务器的大模型推理性能最终实现了比其他云平台厂商快18倍。 另外,在能耗方面,英伟达GPU需要大约10到30焦耳才能生成响应中的tokens,而Groq LPU芯片仅需1到3焦耳,在推理速度大幅提升10倍的同时,其能耗成本仅有英伟达GPU的十分之一,这等于是性价比提高了 虽然Groq公布的数据似乎表明,其LPU芯片的推理速度达到了NVIDIA GPU的10倍以上,并且能耗成本仅是它十分之一,等于是性价比提高了100倍。

    1.3K10编辑于 2024-02-26
  • 来自专栏bit哲学院

    知识推理

    参考链接: 从列表中移除满足Java中给定谓词元素 目录   本体知识推理简介与任务分类  OWL本体语言  知识推理任务  OWL本体推理  ​ 实例化(materialization)的一个例子:    本体推理的局限:  (1) 仅支持预定义的本体公理上的推理(无法针对自定义的词汇支持灵活推理)  (2) 用户无法定义自己的推理过程   引入规则推理  (1) 可以根据特定的场景定制规则,以实现用户自定义的推理过程 spec n )   其中spec i 表示对attr i 的约束,形式可取下列中的一种  原子,如:Alice  变量,如:x (斜体)  表达式,如:[n + 4]  布尔测试,如:{> 10    上下位推理  查询的同时已经做出了推理!   查询触发推理 查询输入类别s和o之间有无上下位关系    添加推理机   OWL推理: 构建OWL推理机  构建一个含OWL推理功能的Model  Model myMod = ModelFactory.createDefaultModel

    2K00发布于 2020-12-13
  • 来自专栏机器之心

    10×加速!DCM显著提升视频扩散模型推理效率!HunyuanVideo13B推理时间从1500秒缩短至120秒!

    然而,扩散模型迭代采样的性质和规模逐渐增长的去噪 transformer 网络,给推理过程带来了繁重的计算代价。 为了缓解这个问题,一致性蒸馏通过减少采样步数,降低推理时延。 通过对推理过程的分析可以发现,相邻时间步的去噪结果在推理早期差异显著,而在后期变得更加缓慢和平滑。 这是因为推理早期主要关注于合成语义,布局和运动这些相对低频的特征成分,而在推理后期更加强调细节的合成。 DCM 性能表现:10x 加速,相当视觉质量 为了验证 DCM 的有效性,本文在 HunyuanVideo,CogVideoX 和 WAN2.1 上进行了实验。 如下表所示,在 4 步生成下,DCM 在实现了超过 10x 加速 (1504.5→121.52) 的同时,获得了与原始 50 步采样相当的 Vbench 得分(83.83%→83.86%),显著超过 LCM

    37110编辑于 2025-06-19
  • 来自专栏DeepHub IMBA

    TensorRT 和 ONNX Runtime 推理优化实战:10 个降低延迟的工程技巧

    micro-batch 在 GPU 上效果明显 单条请求跑推理简单,但硬件利用率往往上不去。打包成 4-8 个请求一起跑,能在保持低延迟的同时提升吞吐。 CUDA Graph 能把整个推理过程录制下来,replay 时几乎没有 CPU 开销。 这里可以理解成在 GPU driver 层面把推理编译成一个可重放的宏。 一个完整的 GPU 推理骨架 下面的代码是把前面几个关键技术串起来: import onnxruntime as ort, numpy as np def make_session(path):

    54610编辑于 2025-11-15
  • 来自专栏MixLab科技+设计实验室

    比Claude快10倍,Diffusion 正在吃掉自回归#AI推理范式革命

    现在的语言模型是一个字一个字生成的,当语言模型学会"一次生成整句话",我们熟悉的 LLM 推理方式将被彻底颠覆。 一场静默的范式转移 2026 年初,AI 圈非常热闹。 在英伟达 H100 上,它能实现超过每秒 1000 个 token 的生成速度,比 GPT-4o 快上 10 倍。这不是微调或压缩的功劳,而是架构层面的质变。 这个开源的语音识别模型,由只有 6 人、每月 GPU 预算不到 10 万美元的小团队打造,却在 STT(语音转文字)领域实现了对 Whisper 的全面超越。 OCR-Agent 通过引入结构化的自我反思机制,让推理变得更加稳健。 LLM 可靠性:学术界的冷思考 当业界在追逐"更快更强"时,学术界在问一个更基础的问题:LLM 到底可不可靠? 从 Mercury 2 的商业落地,到 Moonshine 的边缘部署,再到 OCR-Agent 的自我反思——推理模型正在从"逐字生成"进化到"整体感知"。 这不是终点,而是新的起点。

    13610编辑于 2026-03-25
  • 来自专栏野生AI架构师

    推理与统计:推理的来源是什么?

    有文章提到chatgpt已经具备了复杂的推理能力,按照自己以前对这些大模型的了解,是不太相信的,那不过就是从训练数据提炼出来的观点,本质是一种统计的运算。 这时,我们能说他具备推理能力了吗,也许他只是记住了答案。 网文说,chatgpt的推理能力很可能是来源于代码的学习,代码确实可能是学习逻辑的最佳训练集了,如果他从海量的代码里,学习到了逻辑运算的模式,再加上大模型本身所学到的知识,如果融合在一起,是不是就是产生推理能力了呢 好像是这么回事,不过这个归纳推理,难道不也是从训练集统计而来的吗?如果这么看,那我们个人的推理能力是不是也是这么来的? 话又说回来,推理的来源是不是也是统计?这么理解是不是也是可行的。

    33410编辑于 2023-08-26
  • 来自专栏后端云

    独步AI领域:免费Claude 2登场,引领代码、数学、推理革命,10万token!

    代码、数学和推理全方位大升级 在Codex HumanEval(Python函数合成)、GSM8k(小学数学问题)、MMLU(多学科问答)、QuALITY(非常长的故事问答测试,最多一万个token)、 ARC-Challenge(科学问题)、TriviaQA(阅读理解)和RACE-H(高中阅读理解和推理)上,Claude 2的大部分得分都更高了。 在代码、数学和推理方面,Claude 2比起之前的模型都有很大的提升。 在Codex HumanEval的Python代码测试中,Claude 2的得分从56.0%提升到了71.2%。 各类考试的表现 与申请研究生的美国大学生相比,Claude 2在GRE阅读和写作考试中的得分已经超过了90%的考生,并且在定量推理方面,它的表现与申请者的中位数相当。

    1.1K40编辑于 2023-09-01
  • 来自专栏CreateAMind

    因果推理和概率推理难度一样?

    其他参考: 最新Tractability易处理的因果推理 80PPT 概率编程with Fast Exact Symbolic Inference 快速准确符号推理 小数据大任务 实现框架开源 再发:迄今为止

    51120编辑于 2022-11-22
  • 来自专栏深度学习技术前沿

    10亿参数大模型实时运行,GPT推理加速21倍

    12月2日,英伟达发布了最新的TensorRT 8.2版本,对10亿级参数的NLP模型进行了优化,其中就包括用于翻译和文本生成的T5和GPT-2。 Torch-TensorRT:6倍加速 TensorRT是一个高性能的深度学习推理优化器,让AI应用拥有低延迟、高吞吐量的推理能力。 举个例子 比如,用EfficientNet图像分类模型进行推理,并计算PyTorch模型和经过Torch-TensorRT优化的模型的吞吐量。 优化后的TensorRT引擎可以在HuggingFace推理工作流中替代原始的PyTorch模型。 对NLP感兴趣的朋友,要是想加速大语言模型的推理过程,就快来试试TensorRT 8.2吧!

    2.3K30编辑于 2021-12-08
  • 英伟达Rubin平台量产:整合6款全新芯片,推理Token成本降低10倍!

    此外,其推理每个代币(Token)生成成本相较于英伟达Blackwell平台可降低多达10倍,与前一代相比,英伟达Rubin平台在训练MoE模型时所需的GPU数量减少至原来的四分之一,进一步推动人工智能的普及应用 这些突破将加速代理式人工智能、高级推理能力和超大规模混合专家(MoE)模型的推理。 Rubin GPU集成第三代Transformer引擎,具备硬件加速自适应压缩功能,可为AI推理提供50 petaflops的NVFP4算力。 该系统能效提升5倍,可靠性增强10倍,应用程序运行效率提高5倍。 HGX Rubin NVL8平台可加速AI与高性能计算(HPC)工作负载的训练、推理及科学计算。

    39310编辑于 2026-03-20
  • 来自专栏全栈程序员必看

    复合命题及其推理答案_基本复合命题及其推理

    推理规则为:否定一部分选言支,必须肯定其余选言支;肯定一部分选言支,不能肯定或否定其余支 2、不相容选言推理 (1)否定肯定不相容选言推理 指通过否定不相容选言命题的一部分选言支,进而肯定其余选言支的推理 (2)肯定否定不相容选言推理 指通过肯定不相容选言命题的一部分选言支,进而否定其余选言支的推理。 不相容选言推理的规则:肯定一部分选言支,必须否定其余选言支;否定一部分选言支,必肯定其余支。 互相的) 二、假言推理 假言推理是前提之一为假言命题,并根据假言命题的逻辑性进行推演的复合命题推演。包括假言(条件)直言推理、假言换位推理、假言连锁推理三种。 1、假言直言推理 假言直言推理是前提之一为假言命题,另一前提和结论为直言命题(性质命题)的推理。 2、假言换位推理 即以某种类型的假言命题为前提,通过其前后件的换位而得出另一假言命题推理。 (1)充分条件换位推理 其形式为:如果p,那么q,所以,只有q,才p。

    86610编辑于 2022-09-20
  • 来自专栏腾讯云原生团队

    SuperEdge再添边缘智能加速卡,为边缘智能推理再提速10

    本次联合寒武纪对边缘智能加速卡进行了支持,以利于用户在边缘进行模型训练和边缘智能推理性能的提升。 计算弹性和可编程思元220芯片支持多类神经网络,NeuWare 软件栈可以轻松部署推理环境。BANG Lang 编程环境可对计算资源做直接定制,满足多样化AI定制要求,专业而不专用。

    84030编辑于 2021-12-03
  • LLM推理中 KVCache 提示推理效率的几点应用

    LLM推理中KVCache提示推理效率的几点应用这是基于2025AICon大会的马腾的演讲整理而成通过kvCache的优化提升效率,如模型算法优化减少KVCache产生量,KVCache压缩,KVCache 复用,KVCache共享,前言在大模型应用的浪潮中,有一个问题始终困扰着从业者:如何在保证服务质量的同时,降低推理成本、提高吞吐效率? 在分布式推理场景下,KVCache需要在不同的GPU甚至不同的服务器之间传输,带宽成为重要的瓶颈。管理复杂性也不可小觑。 分离指的是将KVCache从模型推理过程中分离出来,形成独立的服务。模型推理节点不再负责KVCache的存储和管理,而是专注于计算任务。 这种分离带来了几个好处:推理节点可以更专注于计算,提高资源利用率;KVCache服务可以独立扩展,适应不同的负载特征;不同推理节点之间可以共享KVCache,减少重复计算。

    34710编辑于 2026-01-14
领券