AI算力成本要被颠覆？10人公司说token砍99倍

原创

安徽开发者圈

发布于 2026-06-24 09:33:34

2170

当全行业都在疯狂砸钱买GPU的时候，一家只有13人的初创公司站出来说：你们花太多了。

一个让硅谷侧目的数字

2026年6月23日，一家名叫Engram的AI记忆技术公司宣布完成9800万美元融资。投资方阵容豪华得吓人：General Catalyst、Kleiner Perkins、红杉资本，以及OpenAI联合创始人Andrej Karpathy。

但真正让行业震动的不是融资金额，而是他们抛出的一个数字：

同等表现下，token用量仅为前沿大模型的1/100。

这意味着什么？如果你现在每个月花100万跑AI推理，用Engram的方案可能只要1万。

天才陌生人问题

Engram的创始人Dan Biderman有个与众不同的故事。

他从小就对记忆着迷。小时候，他试图用各种方法帮助失忆的祖母记起关于孙辈的小事。这段经历让他走上了计算神经科学的道路，先是哥伦比亚大学博士，后来加入斯坦福AI实验室。

在斯坦福工作时，Biderman发现了一个他称之为天才陌生人的现象：

当前的AI模型就像一个极其聪明但每次见面都不认识你的专家。它能解决复杂问题，但每次对话都要从头理解你的背景、需求和偏好。这种重复理解不仅低效，而且昂贵。

更糟的是，随着上下文变长，模型需要处理的信息越来越多，成本也随之飙升。行业一直假设规模带来更低的单位成本，但新一代模型的实际表现正在打破这个假设。

"数据在爆炸，成本也在爆炸，"Kleiner Perkins合伙人Leigh Marie Braswell说，"Engram做的事情就是给企业画一张组织记忆地图，让输出成本降低几个数量级。"

不是替代大模型，而是给它装上记忆

关键澄清：Engram并不是要替代OpenAI或Anthropic。

Biderman坦言，Engram的模型在通用能力上并不绝对更好。它的优势在于专业化—在特定组织和工作流场景中，通过记忆和学习来提供更精准、更便宜的响应。

打个比方：大模型是一个什么都懂一点的通才顾问，按小时收费，每次见面要重新自我介绍。Engram更像是一个跟你共事多年的老搭档，知道你的习惯、你的项目、你上次做了什么决定，一开口就能直击要害。

Engram这个名字本身就来自神经科学—记忆痕迹，指的是大脑中储存记忆的物理路径。

客户名单说明了一切

成立仅10个月，13个人的团队，客户名单上已经赫然写着：

🔹 微软（Microsoft） 🔹 Notion 🔹 Harvey（法律AI独角兽）

这些可不是好糊弄的主。他们选择Engram，说明token成本问题已经切切实实地痛到了。

企业AI支出正在失控。Forbes同日发布的调查显示，1/5的企业员工每周因AI工具的低效使用损失整整一个工作日。而CNBC此前报道，开发者对AI的野蛮使用正让企业账单飞涨—OpenAI和Anthropic的模型路由问题成了一个公开的秘密。

在这种背景下，一个能削减99%推理成本的方案，吸引力不言而喻。

算力竞赛的逻辑要变了？

过去几年，AI行业的底层逻辑是大力出奇迹：更多GPU、更大模型、更长上下文。SpaceX刚花63亿美元给Reflection租算力，自己又发债200亿搞数据中心。

但Engram的出现提出了另一个可能性：

与其堆算力，不如让模型更好地记住和复用。

如果100倍的token节约能够兑现并规模化，整个行业的算力需求模型可能需要重写。这不是说GPU不再重要，而是"暴力堆算力"可能不再是唯一的答案。

当然，Engram目前还很小，13个人的团队，技术主张也未经大规模独立验证。但考虑到投资方和客户名单的分量，这个方向值得认真对待。

写在最后

AI行业正在经历一个有趣的转折点。一边是SpaceX用百亿级资本疯狂建设数据中心，另一边是一个10人团队说"其实你们可以少花99倍的钱"。

真相可能介于两者之间。但有一点越来越清楚：算力的未来，不只在于更多，更在于更聪明地使用。

Engram的9800万美元融资，买的不是一家公司，而是对整个行业成本结构的一次重新想象。

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

合肥同盟

腾讯云架构师技术同盟

云计算

原创声明：本文系作者授权腾讯云开发者社区发表，未经许可，不得转载。

如有侵权，请联系 cloudcommunity@tencent.com 删除。

合肥同盟

腾讯云架构师技术同盟

云计算

登录后参与评论

0 条评论

热度