大型语言模型(LLM)与多模态推理系统正迅速扩展至数据中心之外。汽车与机器人领域的开发者越来越倾向于在车辆或机器人本体上直接运行对话式AI代理、多模态感知及高层规划任务——这些场景对延迟、可靠性及离线运行能力有着严苛要求。
尽管现有诸多LLM与视觉语言模型(VLM)推理框架聚焦于数据中心需求(如管理海量并发请求、最大化吞吐量),嵌入式推理则需要专属的定制化解决方案。
本文正式介绍 某机构 TensorRT Edge-LLM——一个全新的、开源的C++ LLM/VLM推理框架,旨在满足高性能边缘推理的新兴需求。Edge-LLM专为嵌入式汽车与机器人平台(某机构 DRIVE AGX Thor 及某机构 Jetson Thor)上的实时应用而构建。该框架随某机构 JetPack 7.1 版本发布,并以开源形式托管于GitHub。
TensorRT Edge-LLM具有极少的依赖项,便于生产级边缘应用的部署。其精简、轻量的设计明确聚焦于嵌入式专用能力,最大限度降低了框架自身的资源占用。
此外,TensorRT Edge-LLM的先进特性——如EAGLE-3投机解码、NVFP4量化支持及分块预填充——为高要求的实时用例提供了顶尖性能。
图1. TensorRT Edge-LLM 在使用Qwen3模型与投机解码时展现出卓越性能
边缘LLM与VLM推理负载具有以下特征:
因此,机器人与汽车领域的实时应用提出了特定需求:
TensorRT Edge-LLM的设计宗旨即是满足并优先处理这些嵌入式特定需求,为嵌入式LLM与VLM推理提供坚实基础。
合作伙伴已开始利用TensorRT Edge-LLM作为其车载AI产品的基础,包括某机构、某机构及某机构,这些厂商将在2026 CES上展示相关技术。
随着TensorRT Edge-LLM的推出,这些LLM与VLM推理能力现已面向某机构 Jetson生态系统开放,作为机器人技术的基石。
TensorRT Edge-LLM旨在提供LLM与VLM推理的端到端工作流,涵盖三个阶段:
图2. TensorRT Edge-LLM 工作流及关键组件
Python导出流水线:将Hugging Face模型转换为ONNX格式,支持量化、LoRA适配器及EAGLE-3投机解码(图3)。
图3. TensorRT Edge-LLM Python导出流水线阶段与工具
引擎构建器:专门为嵌入式目标硬件构建优化后的TensorRT引擎(图4)。
图4. TensorRT Edge-LLM 引擎构建器工作流
C++运行时:负责目标硬件上的LLM与VLM推理。该运行时利用TensorRT引擎执行自回归模型的核心解码循环:基于输入及先前生成的Token进行迭代式Token生成。用户应用程序与此运行时交互,以解决LLM与VLM工作负载。
图5. TensorRT Edge-LLM C++运行时的预填充与解码阶段
关于各组件的更详细说明,请参阅TensorRT Edge-LLM文档。
准备好开始在 Jetson AGX Thor DevKit 上进行LLM与VLM推理了吗?
对于某机构 DRIVE AGX Thor用户,TensorRT Edge-LLM已集成至某机构 DriveOS发布包中。DriveOS的未来版本将持续利用该GitHub仓库。
随着LLM与VLM快速向边缘迁移,TensorRT Edge-LLM提供了一条从Hugging Face模型到某机构汽车与机器人平台上实时、生产级执行的清晰可靠路径。
探索工作流,测试您的模型,并着手构建下一代智能设备端应用。欲了解更多,请访问某机构/TensorRT-Edge-LLM GitHub仓库。
感谢 Michael Ferry, Nicky Liu, Martin Chi, Ruocheng Jia, Charl Li, Maggie Hu, Krishna Sai Chemudupati, Frederik Kaster, Xiang Guo, Yuan Yao, Vincent Wang, Levi Chen, Chen Fu, Le An, Josh Park, Xinru Zhang, Chengming Zhao, Sunny Gai, Ajinkya Rasane, Zhijia Liu, Ever Wong, Wenting Jiang, Jonas Li, Po-Han Huang, Brant Zhao, Yiheng Zhang, 以及 Ashwin Nanjappa 对 TensorRT Edge-LLM 的贡献与支持。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。