百灵大模型认领“Elephant”：Ling-2.6-flash正式发布，定价每百万token 0.1美元

文章来源：企鹅号 - 潮新闻

潮新闻客户端记者张云山

4月22日，蚂蚁百灵正式推出Ling-2.6-flash—— 一款总参数量104B、激活参数7.4B的Instruct模型。该模型主打“Token 效率（Token Efficiency）”，在保持竞争力智能水平的同时，更快、更省以及更适合大规模真实应用。

蚂蚁百灵正式推出Ling-2.6-flash（受访者供图）

据权威三方评测Artificial Analysis数据，Ling-2.6-flash展现了突出的Token Efficiency优势，以15M output tokens实现了26分的Intelligence Index，在保持较强智能水平的同时，将输出消耗控制在相对更低的位置。相比部分依赖更长输出换取更高分数的模型，Ling-2.6-flash在“智能表现”与“输出成本”之间取得了更优平衡。

对于开发者和企业场景而言，这种效率优势意味着更低的推理开销、更快的首字响应、更短的整体生成时延，以及更流畅的交互体验，满足在真实部署环境下对速度、成本与体验的综合要求。

Ling-2.6-flash沿用了Ling 2.5的混合线性架构设计，这种高度稀疏化的MoE架构在硬件表现上优势明显。在4卡H20条件下推理速度最快可达到340 tokens/s，Prefill吞吐达到Nemotron-3-Super的2.2倍。在Output Speed测评中，Ling-2.6-flash以215tokens/s的稳定输出速度位列同参数级别模型的第一梯队。

蚂蚁百灵正式推出Ling-2.6-flash（受访者供图）

从Token消耗来看，Ling-2.6-flash的智效比显著提升。在Artificial Analysis完整测评中，Ling-2.6-flash总消耗为15M tokens，而Nemotron-3-Super等模型达到或超过110M tokens。这意味着，Ling-2.6-flash仅用约1/10的token消耗完成了同类评测任务。

Ling-2.6-flash面向Agent场景进行了定向增强，在控制Token消耗的前提下，依然保持了极强的任务执行力，模型在BFCL-V4、TAU2-bench、SWE-bench Verified、Claw-Eval、PinchBench等Agent 相关基准上达到同尺寸SOTA水平。与此同时，Ling-2.6-flash在通用知识、数学推理、指令遵循及长文本解析等维度保持优秀水准。

蚂蚁百灵正式推出Ling-2.6-flash（受访者供图）

API定价方面，Ling-2.6-flash输入每百万tokens定价0.1美元，输出0.3美元。目前，Ling-2.6-flash的API已正式向用户开放，并提供为期一周的限时免费试用。用户可以通过OpenRouter 、百灵大模型tbox获取对应服务。据了解，该模型后续将通过蚂蚁数科发布商业版本LingDT，服务全球开发者及中小企业。

百灵大模型认领“Elephant”（受访者供图）

一周前，Ling-2.6-flash的匿名测试版本“Elephant Alpha”上线OpenRouter，上线以来，其调用量持续增长，连续多日位列Trending榜首，日均tokens调用量达100B级别，周增长超5000%。

发表于: 3天前2026-04-22 14:07:14
原文链接：https://page.om.qq.com/page/OdQRSDy9jK_VR4XVkFtJDGug0
腾讯「腾讯云开发者社区」是腾讯内容开放平台帐号（企鹅号）传播渠道之一，根据《腾讯内容开放平台服务协议》转载发布内容。
如有侵权，请联系 cloudcommunity@tencent.com 删除。

百灵大模型认领“Elephant”：Ling-2.6-flash正式发布，定价每百万token 0.1美元

相关快讯

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐