首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >零成本为 OpenClaw 装上“耳朵”与“嘴巴”,一步到位的语音交互指南

零成本为 OpenClaw 装上“耳朵”与“嘴巴”,一步到位的语音交互指南

作者头像
Henry Zhang
发布2026-03-31 14:01:37
发布2026-03-31 14:01:37
1.9K0
举报

题图摄于广州

路边看到有人对着手机说话,你一定会认为他在用微信和别人谈话。现在你再做这个姿势的时候,你可以说:“我在指挥龙虾干活。” 今天,我们来说说怎样做到这样的炫酷 —— 让 OpenClaw 能听会说,全程零成本。

一、语音功能概述

在 AI 助手普及的当下,语音交互已成为提升用户体验的核心能力。OpenClaw 作为强大的 AI 智能体平台,支持语音输入(STT,Speech To Text)语音输出(TTS,Text To Speech)

玩龙虾的朋友都知道,要给龙虾增加各种“法术”(技能),常常需要申请 API Key。API Key 可以理解为机器使用的账号,服务商据此识别用户并收费——换句话说,有了 API Key 往往意味着需要付费才能使用。

本文介绍的配置方案完全免费,真正实现零成本让 OpenClaw 能听会说,并且对 OpenClaw 全局(即所有通道)有效:

输入端:用 Groq 提供的免费额度用于语音识别,

输出端:用微软 Edge TTS ,接入是完全免费,无需 API Key 即可使用,配置很简单。

二、配置 Groq STT(语音输入)

2.1 获取 Groq API Key

首先访问 Groq 官网(groq.com)注册账号。Groq 提供每月 1000 万 token 的免费额度,对于个人使用完全足够。注册完成后,在 Dashboard 中创建 API Key 并复制备用。

2.2 配置 tools.media.audio

openclaw.json 中添加音频处理配置,开启 STT 功能并设置最大音频文件大小:

这里的 model 选择 whisper-large-v3 是最好的模型,因为在云端,所以不影响 OpenClaw 本地的磁盘空间。

注: Whisper 是 OpenAI 开源的语音识别模型。

2.3 配置 models.providers.groq

下一步是添加 Groq 的 API 配置信息,把 Groq 官网的申请的 API Key 填入下面 apiKey 的引号之中:

2.4 支持的音频格式

上面两步就配置好了 OpenClaw 的语音输入。Groq Whisper 支持 MP3、MP4、MPEG、M4A、WAV、WEBM、OGG 等多种格式,兼容各平台语音消息。

三、配置 Edge TTS(语音输出)

3.1 基础配置

最简单的 Edge TTS 配置,使用默认语音(英语):

因为 OpenClaw 原生支持微软的 edge TTS 免费服务,所以配置很简单,无需 API Key。

3.2 中文语音配置(推荐)

如果需要中文,可以按照下面方式,显式指定音色和中文语言,确保生成中文语音:

可选中文音色有这三位:zh-CN-XiaoxiaoNeural(晓晓女声)、zh-CN-YunxiNeural(云希男声)、zh-CN-XiaoyiNeural(晓伊女声)。

3.3 高级配置(含语速音调调节)

完整的 Edge TTS 配置,还可包含这些可调参数:

参数说明:rate 控制语速(如 +10% 加快 10%),pitch 控制音调(如 -5% 降低音调),outputFormat 设置输出音频格式。

3.4 完整配置示例(STT + TTS)

完整的 messages 配置,同时启用语音输入和输出:

四、自动模式详解

当机器人(通道)收到语音消息之后,messages.tts.auto 决定机器人用什么方式回复,支持这四种模式:

off 模式:完全关闭自动 TTS

always 模式:所有回复都带语音

inbound 模式:仅当收到语音消息时用语音回复(推荐)

tagged 模式:仅在回复包含 [[tts]] 标签时生成语音

五、通道配置

OpenClaw 支持多种消息通道的语音功能,基本上只要 IM(即时通信)软件支持,都可以接入:

Discord:支持 STT 和 TTS,但发送语音消息需使用 App(网页版不支持)

Telegram:完美支持 STT 和 TTS,语音消息体验最佳,显示圆形语音气泡

QQ:支持接收和发送语音消息,需确保 Bot 有相应权限

飞书:支持语音输入输出功能

说明一下,周末上线的微信 OpenClaw 插件,自带语音转换成文字,不需要OpenClaw 的 STT 功能。但是回复中的语音还是需要 OpenClaw 提供。

六、测试与验证

配置完成后,重启 OpenClaw 服务使配置生效:

openclaw gateway restart

查看 TTS 状态命令:

/tts status

测试 TTS 生成命令:

/tts audio 你好,这是测试语音

七、故障排除

STT 不正常时的检查清单:

  1. 检查 Groq API Key 是否正确配置
  2. 确认 tools.media.audio.enabled 设置为 true
  3. 查看日志命令:openclaw logs
  4. 检查音频文件大小是否超过 maxBytes 限制

语音消息发送失败的排查:检查通道是否支持音频文件,确认 Bot 有发送媒体文件的权限,查看 OpenClaw 日志中的错误信息。

八、最佳实践

隐私考虑:语音消息会经过第三方服务(Groq、微软),敏感信息建议用文字发送。

成本优化:Groq 免费额度通常够用,Edge TTS 完全免费无额度限制。如果用量大,可以考虑本地部署 Whisper。

用户体验:保持回复简洁适合语音播放,长内容可开启自动摘要,给用户选择文字或语音的权利。

禁用长回复自动摘要的配置:

运行命令:/tts summary off

九、总结

通过本文的配置,你可以零成本为 OpenClaw 启用完整的语音交互能力。输入端使用 Groq Whisper 提供免费额度且识别准确,输出端使用微软 Edge TTS 完全免费且中文自然流畅。

这套方案适合个人用户和小型项目,无需担心费用问题。如果后期用量增大,也可以无缝切换到其他付费供应商如 ElevenLabs 或 OpenAI,配置方式类似。

语音交互让 AI 助手更加人性化和便捷,快去试试吧!

欢迎关注 亨利笔记, 👍 点赞 | ⭐ 收藏 | ↗️ 转发。欢迎评论区聊聊你的看法。

本文参与 腾讯云自媒体同步曝光计划,分享自微信公众号。
原始发表:2026-03-22,如有侵权请联系 cloudcommunity@tencent.com 删除

本文分享自 亨利笔记 微信公众号,前往查看

如有侵权,请联系 cloudcommunity@tencent.com 删除。

本文参与 腾讯云自媒体同步曝光计划  ,欢迎热爱写作的你一起参与!

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 题图摄于广州
  • 一、语音功能概述
  • 二、配置 Groq STT(语音输入)
    • 2.1 获取 Groq API Key
    • 2.2 配置 tools.media.audio
    • 2.3 配置 models.providers.groq
    • 2.4 支持的音频格式
  • 三、配置 Edge TTS(语音输出)
    • 3.1 基础配置
    • 3.2 中文语音配置(推荐)
    • 3.3 高级配置(含语速音调调节)
    • 3.4 完整配置示例(STT + TTS)
  • 四、自动模式详解
  • 五、通道配置
  • 六、测试与验证
  • 七、故障排除
  • 八、最佳实践
  • 九、总结
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档