Google 现已推出一款名为 Google AI Edge Eloquent 的离线优先语音转文字应用,该应用基于 Gemma 模型构建,目前已上架 iOS 平台供用户下载。
根据 App Store 的介绍,Google AI Edge Eloquent 旨在“弥合”日常口语表达与专业书面文本之间的差距。该系统能够有效过滤掉“嗯”、“呃”等填充词,以及说话过程中的自我修正。
尽管该应用主打离线功能(这意味着你需要将基于 Gemini 的自动语音识别模型下载到手机上),但它也提供了云端模式。顾名思义,该模式会将你的数据传输至云端的 Gemini 模型,以进行更精细的文本润色。本地处理据说速度更快且能保护音频隐私,而云端选项则可能为复杂句子提供更出色的润色效果。
该应用的其他功能还包括将语音转录内容提炼为要点,或将语气调整为正式、简短或详尽模式。你还可以查看历史记录,了解过往会话的每分钟字数和总字数。该应用内置一个上下文词典,你可以手动添加专业术语,或从 Gmail 账户导入特定的姓名和关键词。
App Store 上有两款 Google 的“AI Edge”应用,除了 Eloquent,另一款是 AI Edge Gallery。后一款应用本质上是一个沙盒环境,你可以在设备上完全离线运行 Gemma 系列模型(包括最新的 Gemma 3n 和 Gemma 4)。Gallery 应用中的 AI 聊天与思考功能可以让你实时查看模型的分步推理过程。该应用还配备了提示词实验室和基准测试工具,让你能够测试不同开源权重模型在自家硬件上的性能表现。
Gemma 4 是不久前发布的一组开源权重模型,旨在将高端推理能力带入本地设备。该系列包括适用于手机的 E2B 和 E4B 尺寸模型,以及适用于桌面端的 26B 和 31B 等大尺寸变体。这些模型支持 128K 的“上下文窗口”,而较大尺寸的变体则支持 256K 的上下文窗口。