The Information报道,OpenAI过去两个月内整合工程、产品和研究力量,集中攻克音频交互的技术瓶颈,目标打造一款可通过自然语音指令操作的消费级设备。
该设备将具备更自然的情感表达能力和实时对话功能,包括处理对话打断的能力,这是现有模型无法实现的关键特性,计划2026年第一季度发布。

OpenAI当前的语音模型与文本模型分属不同架构,导致用户通过语音与ChatGPT对话时,获得的回答质量和速度均逊于文本模型。
为解决这一问题,OpenAI在过去两个月内完成了关键团队整合。
OpenAI 团队希望用户通过“说话”而非“看屏幕”与设备互动,认为语音才是最贴近人类交流本能的方式。
从Meta为Ray-Ban智能眼镜配备五麦克风阵列增强听力,到特斯拉将xAI的聊天机器人Grok集成到车辆中实现语音控制导航和气候系统,再到OpenAI优化其音频人工智能模型,科技巨头们正集体押注音频未来。
知情人士称,OpenAI还计划推出一系列无屏设备,包括智能眼镜和智能音箱,将设备定位为用户的"协作伴侣"而非单纯的应用入口。
今年是AI Agent元年,大量数字化系统和软件已经集成了AI,明年AI Agent将开始向物理世界延伸。