Meta开源多语言语音识别系统，支持1600种语言，可轻松扩展新语种！

开源星探

发布于 2026-03-16 20:35:11

1680

语音识别（ASR）一直是 AI 语音领域的“硬骨头”。全球语言多样、数据不平衡，想让模型听懂世界上绝大多数人说的话，难度可想而知。

而 Meta 研究团队这次开源的 Omnilingual ASR，几乎可以说是向语言鸿沟宣战的一步。

它能理解 1600 种语言，只需几条语音-文本配对样本就能实现零样本扩展新语种——也就是说，哪怕模型没见过这种语言，只要你给几条例子，它也能开始“听懂”！

它提供了三种架构——SSL、CTC和LLM，每种架构从300M到7B参数不等，满足不同需求。CTC架构速度快，最高96倍实时，适合批量转写；LLM可零样本识别，准确率高，78%的语言错误率低于10%；SSL用于预训练或特征提取。

Meta 在项目中提供了三种架构版本，从轻量级到高精度全覆盖不同应用场景：

这种设计非常灵活：

想要快→用CTC；想要懂语义→用 LLM；想要做自训练或特征迁移→用 SSL。

Meta 官方数据显示：

这意味着：在低资源语种语音识别领域，Omnilingual ASR 已接近“破圈”性能。

Meta 的 Omnilingual ASR 正在重新定义语音识别的边界。

在这个模型中：语种再多，也能统一识别；数据再少，也能零样本适配；模型再大，也能部署自如。

语音 AI 不再局限于大语种世界。它将让更多语言第一次拥有高质量的语音识别系统。

GitHub： https://github.com/facebookresearch/omnilingual-asr

如果本文对您有帮助，也请帮忙点个赞👍 + 在看哈！❤️

在看你就赞赞我！

本文参与腾讯云自媒体同步曝光计划，分享自微信公众号。

原始发表：2025-11-11，如有侵权请联系 cloudcommunity@tencent.com 删除