

路边看到有人对着手机说话,你一定会认为他在用微信和别人谈话。现在你再做这个姿势的时候,你可以说:“我在指挥龙虾干活。” 今天,我们来说说怎样做到这样的炫酷 —— 让 OpenClaw 能听会说,全程零成本。
在 AI 助手普及的当下,语音交互已成为提升用户体验的核心能力。OpenClaw 作为强大的 AI 智能体平台,支持语音输入(STT,Speech To Text)与语音输出(TTS,Text To Speech)。
玩龙虾的朋友都知道,要给龙虾增加各种“法术”(技能),常常需要申请 API Key。API Key 可以理解为机器使用的账号,服务商据此识别用户并收费——换句话说,有了 API Key 往往意味着需要付费才能使用。
本文介绍的配置方案完全免费,真正实现零成本让 OpenClaw 能听会说,并且对 OpenClaw 全局(即所有通道)有效:
输入端:用 Groq 提供的免费额度用于语音识别,
输出端:用微软 Edge TTS ,接入是完全免费,无需 API Key 即可使用,配置很简单。
首先访问 Groq 官网(groq.com)注册账号。Groq 提供每月 1000 万 token 的免费额度,对于个人使用完全足够。注册完成后,在 Dashboard 中创建 API Key 并复制备用。

在 openclaw.json 中添加音频处理配置,开启 STT 功能并设置最大音频文件大小:

这里的 model 选择 whisper-large-v3 是最好的模型,因为在云端,所以不影响 OpenClaw 本地的磁盘空间。
注: Whisper 是 OpenAI 开源的语音识别模型。
下一步是添加 Groq 的 API 配置信息,把 Groq 官网的申请的 API Key 填入下面 apiKey 的引号之中:

上面两步就配置好了 OpenClaw 的语音输入。Groq Whisper 支持 MP3、MP4、MPEG、M4A、WAV、WEBM、OGG 等多种格式,兼容各平台语音消息。
最简单的 Edge TTS 配置,使用默认语音(英语):

因为 OpenClaw 原生支持微软的 edge TTS 免费服务,所以配置很简单,无需 API Key。
如果需要中文,可以按照下面方式,显式指定音色和中文语言,确保生成中文语音:

可选中文音色有这三位:zh-CN-XiaoxiaoNeural(晓晓女声)、zh-CN-YunxiNeural(云希男声)、zh-CN-XiaoyiNeural(晓伊女声)。
完整的 Edge TTS 配置,还可包含这些可调参数:

参数说明:rate 控制语速(如 +10% 加快 10%),pitch 控制音调(如 -5% 降低音调),outputFormat 设置输出音频格式。
完整的 messages 配置,同时启用语音输入和输出:

当机器人(通道)收到语音消息之后,messages.tts.auto 决定机器人用什么方式回复,支持这四种模式:
off 模式:完全关闭自动 TTS

always 模式:所有回复都带语音

inbound 模式:仅当收到语音消息时用语音回复(推荐)

tagged 模式:仅在回复包含 [[tts]] 标签时生成语音

OpenClaw 支持多种消息通道的语音功能,基本上只要 IM(即时通信)软件支持,都可以接入:
Discord:支持 STT 和 TTS,但发送语音消息需使用 App(网页版不支持)
Telegram:完美支持 STT 和 TTS,语音消息体验最佳,显示圆形语音气泡
QQ:支持接收和发送语音消息,需确保 Bot 有相应权限
飞书:支持语音输入输出功能
说明一下,周末上线的微信 OpenClaw 插件,自带语音转换成文字,不需要OpenClaw 的 STT 功能。但是回复中的语音还是需要 OpenClaw 提供。
配置完成后,重启 OpenClaw 服务使配置生效:
openclaw gateway restart
查看 TTS 状态命令:
/tts status
测试 TTS 生成命令:
/tts audio 你好,这是测试语音
STT 不正常时的检查清单:
语音消息发送失败的排查:检查通道是否支持音频文件,确认 Bot 有发送媒体文件的权限,查看 OpenClaw 日志中的错误信息。
隐私考虑:语音消息会经过第三方服务(Groq、微软),敏感信息建议用文字发送。
成本优化:Groq 免费额度通常够用,Edge TTS 完全免费无额度限制。如果用量大,可以考虑本地部署 Whisper。
用户体验:保持回复简洁适合语音播放,长内容可开启自动摘要,给用户选择文字或语音的权利。
禁用长回复自动摘要的配置:
运行命令:/tts summary off
通过本文的配置,你可以零成本为 OpenClaw 启用完整的语音交互能力。输入端使用 Groq Whisper 提供免费额度且识别准确,输出端使用微软 Edge TTS 完全免费且中文自然流畅。
这套方案适合个人用户和小型项目,无需担心费用问题。如果后期用量增大,也可以无缝切换到其他付费供应商如 ElevenLabs 或 OpenAI,配置方式类似。
语音交互让 AI 助手更加人性化和便捷,快去试试吧!
欢迎关注 亨利笔记, 👍 点赞 | ⭐ 收藏 | ↗️ 转发。欢迎评论区聊聊你的看法。