大家可能听说过很多次,DeepSeek V4就要爱了,这一次可能是最靠谱的时间点了。
就在上周,多位知情人士透露,DeepSeek创始人梁文锋在内部已经明确了节奏:下一代旗舰大模型V4,计划于4月下旬正式与公众见面 。

虽然官方还没按下那个最终的发布按钮,但网页端悄悄上线的“快速模式”和“专家模式”,以及频繁的灰度测试,都在预示我们它很快要来了。
为什么跳票这么久?可能很大的一个原因是,DeepSeek 又要搞一次国内AI大模型谁也没有做过的事情。
那就是完全使用国产AI芯片。
有关注中国AI发展的人都知道,过去我们一直被卡脖子的不仅是芯片制程,更是英伟达CUDA生态的软件护城河。
但这一次,DeepSeek V4干了一件牛逼的事情:完全运行在华为昇腾950PR芯片之上,底层代码从CUDA全面转向华为自研的CANN框架 。
这意味着什么?在极端的外部封锁下,“国产模型+国产芯片”这条独立技术路线,不仅走通了,还跑出了加速度。
听说阿里、字节、腾讯等巨头已经闻风而动,提前预订了数十万片昇腾芯片,导致芯片价格直接飙升了20% 。
现在感觉 DeepSeek 的使命,就是在 AI 领域替国人探索哪些无人区,等 DeepSeek 带头搞出来后,国产其它模型再跟进普及。
就比如 DeepSeek V3 出来后,让国产的其它大模型,迅速的拉平了和国外大模型差距。
甚至 DeepSeek 公司每次发表新论文的时候,国内外的各大模型大厂,都会迅速跟进研究、融入到自己的模型中。
综合目前多方信源,DeepSeek V4预计将采用万亿参数(1T)的MoE(混合专家)架构,更夸张的是,它的上下文窗口直接拉到了100万Tokens 。
但其实我觉得 DeepSeek V4 虽然会比 V3 更好,但一定没有大家像之前期待的那么炸裂。
本质上来讲,DeepSeek 在大模型公司中,仍然属于比较小的公司,不管人力还是各种资源毕竟是有限的。
我们要尊重是事物发展规律。平心而论,DeepSeek已经做得很优秀了。
它用最少的钱,跑出了最强的模型;它以一己之力,把全球AI推理成本打了下来。它已经完成了中国AI史上最重的一幕:证明了我们不仅能做,还能做得比硅谷更好。
但随之而来的,是沉重得近乎窒息的关注与期望。
当一个公司被贴上“全村的希望”、“国家AI旗手”的标签时,每一次宕机都会被无限放大,每一个延期都会被过度解读。
这种压力,足以压垮任何一家创业公司。
我们应该用正常的眼光来看待更多“平凡、也会犯错的 DeepSeek",哪怕崩溃了,V4 不那么惊艳,也并不影响 DeepSeek 的历史地位,已经它仍然是一家巨牛逼的公司。