快速阅读:Cohere 发布了开源的 20 亿参数语音识别模型 Cohere Transcribe,凭借极高的吞吐量与英语准确率在 Hugging Face 榜单夺冠,为企业级语音转录提供了高性价比的自托管方案。
现在的语音识别领域,大家似乎都在堆参数,却忘了实际运行时的吞吐量才是生产力的硬指标。Cohere Transcribe 的出现像是在臃肿的系统里塞进了一个经过高度优化的指令集。它用 Conformer 编码器配合轻量级 Transformer 解码器,把 20 亿参数的模型跑出了极高的效率,处理速度大概是同规模竞品的 3 倍。
英语 WER 降到了 5.42%,在 Hugging Face 的开源榜单上排到了第一。有网友提到,它在真实对话环境下的鲁棒性很强,这对于需要处理复杂噪声的会议记录或客服场景非常重要。它支持包括中文在内的 14 种语言,而且用的是 Apache 2.0 协议,这意味着你可以直接把它部署在自己的服务器上,不用担心数据隐私问题。
不过,这个模型现在的状态更像是一个纯粹的转换器,而不是一个完整的语音处理系统。它目前没有内置时间戳,也分不清谁在说话,甚至连自动语言检测都没有,你得手动告诉它现在用的是哪种语言。有观点认为,它可能会把环境里的杂音也强行转成文字,用的时候可能得加点噪声提示。
它更像是一个底层的驱动程序,高效、精准,但具体的应用逻辑还得靠上层的编排平台去实现。
官方博客:cohere.com/blog/transcribe
Hugging Face 模型页:huggingface.co/CohereLabs/cohere-transcribe-03-2026
产品页:cohere.com/transcribe