首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >腾讯云智能硬件多模态“看、听、说”I/O标准化解决方案

腾讯云智能硬件多模态“看、听、说”I/O标准化解决方案

原创
作者头像
IT资讯研究所
发布2026-05-30 01:26:02
发布2026-05-30 01:26:02
1190
举报

来源: 2025腾讯云城市峰会·青岛峰会(AI产业应用专场)

演讲人: 龙一民 | 腾讯云音视频物联网总经理

一、 产品定位与核心亮点

本产品是腾讯云面向智能硬件开发者推出的多模态大模型时代“看、听、说”智能硬件I/O标准化解决方案

  • 技术定义: 基于腾讯混元AI大模型,整合音视频通信(RTC)、即时通讯(IM)及微信生态能力的全栈式硬件开发平台。
  • 核心亮点:
    • 多模态交互标准化: 打通“让我看(视觉)、跟我说(听觉)、用我搜(搜索)、让我管(控制)”的硬件I/O标准。
    • 微信原生连接: 实现智能硬件与微信生态的无缝打通,支持设备一键呼叫微信并持续响铃提醒,保持与原生微信一致的触达率。
    • TWeTalk多模态对话: 集成了唤醒、降噪、ASR、LLM、TTS、RTC全链路能力的AI对话系统。

二、 产品应用场景

受众/设备

业务场景

痛点/需求

智能耳机/眼镜用户

会议办公

需要转写字幕、多语翻译、智能录制,并分离多说话人声音,消除环境噪音。

教育硬件开发者

学习辅助

需要听写、背诵、口语陪练等基于视觉(看题/看书)和听觉的交互功能。

陪伴机器人厂商

康养/情感陪伴

需要提供情感陪伴、康养咨询服务,并具备感知人、位置、环境及情绪的能力。

全屋智能厂商

智能家居控制

需要Function Call(函数调用)能力,管理音频、视频、文档及生成多媒体内容。

出行/服务人员

移动办公与客服

需要第一视角直播、碰一碰交换名片、支付、通行及多语言支持。

三、 应用框架和功能介绍

1. 功能框架

产品由底层硬件适配、中间层AI处理与上层应用生态构成:

  • TWeTalk (AI对话层): 负责唤醒、降噪、回声消除、远场增益、语义打断。
  • Tencent Cloud (能力层):
    • TWeSee: 多模态视觉处理(视频语义理解、拍照识图)。
    • TWeCall: 微通话(设备拨打微信音视频)。
    • P2P服务: 双向音视频对讲。
  • 微信生态层: 接入微信通话、拍照分享、视频号直播、硬件微聊、家庭群及社交名片。

2. 硬核指标与技术参数

  • 操作系统支持: RTOS/Linux(支持快启动、低功耗)。
  • 芯片适配: 全线适配视频、音频芯片,资源占用低,编解码无压力。
  • 语音引擎: 弱网环境下自动切换使用Penguins语音引擎
  • 翻译与转写: 实时转写支持导出文本,翻译支持17种语言(含中文、英语、日语、韩语、俄语、泰语等)。
  • 方言支持: 支持上海话、四川话等方言识别(由腾讯云方言大模型支持)。
  • 热词库: 支持自定义热词(上限100个),覆盖缩略语、术语、专有名词。

3. 产品优势

  • 视觉感知: 具备记忆能力,可感知人、位置、环境及情绪;支持第一视角直播。
  • 听觉增强:
    • 背景音降噪: 自动抑制环境噪音,提升人声清晰度。
    • 回声抑制: 集成回声抵消、啸叫检测、自动增益控制(AGC)。
    • 主讲人增强: 基于声纹增强目标讲话人语音,屏蔽“陌生人”人声干扰。
  • 多说话人分离: 通过声纹将转写内容按发言人拆分,支持修改发言人名称,支持按发言人回顾视频与纪要。
  • 实时交互: 支持语义打断,无需等待AI播报结束即可插话。
  • 行业定制: 识别模型覆盖通用、教育、财经、健康、法律、科技等行业领域。
  • 近场通信: 支持“碰一碰”加好友、交换名片、支付及通行
  • 多媒体生成: 支持管理并生成图片、音乐、视频、文档
  • 直播互动: 支持视频号直播的画质超分、实时字幕、多语翻译,以及电商与运动直播互动。

4. 荣誉背书

  • 官方大模型底座:集成腾讯混元AI大模型能力。
  • 方言识别技术:搭载腾讯云方言大模型

四、 典型案例

案例一:智能眼镜在开放办公/户外场景的应用

  1. 背景: 客户(智能眼镜厂商)面临在开放工位或户外喧闹环境中,语音转写不准确、会议纪要混乱的技术瓶颈。
  2. 解决方案: 采用主讲人语音增强技术,录入主讲人声纹;结合多说话人分离功能。
  3. 成效:
    • 眼镜注视的主讲人声音被精准识别,陌生人声音不被ASR转写。
    • 生成“纯粹和干净”的字幕和纪要,支持按发言人快速定位内容。

案例二:会议场景的跨国协作(智能耳机/设备)

  1. 背景: 企业会议涉及外籍员工,且需要在弱网环境下保证沟通质量。
  2. 解决方案: 使用实时转写+字幕功能,配合多语言翻译(17种语言),并在弱网时自动切换Penguins语音引擎
  3. 成效:
    • 参会成员可选择将声源语言翻译为中文、英文、日文等消除语言障碍。
    • 弱网环境下音质体验得到保障。

案例三:汽车销售场景(方言大模型应用)

  1. 背景: 汽车销售(如上海地区)需要精准识别和理解上海话客户咨询,提升服务体验。
  2. 解决方案: 接入腾讯云方言大模型,识别上海话语音输入。
  3. 成效:
    • 系统能够准确转写并理解上海话内容(例如:“依让伊可以过来试驾一下噶车子...续航是500多公里...免购置税”)。
    • 支持销售场景下的专业术语与口语化表达识别。

案例四:房地产沙盘讲解(方言大模型应用)

  1. 背景: 房地产项目(如四川地区)销售人员在沙盘讲解时使用大量四川话,需要准确的语音识别与记录。
  2. 解决方案: 接入腾讯云方言大模型,识别四川话语音输入。
  3. 成效:
    • 系统准确识别四川话(例如:“你给他给他看下那个一号座...背靠彭山这边...背山面水的一个项目”),支持后续的信息整理与客户分析。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 一、 产品定位与核心亮点
  • 二、 产品应用场景
  • 三、 应用框架和功能介绍
    • 1. 功能框架
    • 2. 硬核指标与技术参数
    • 3. 产品优势
    • 4. 荣誉背书
  • 四、 典型案例
    • 案例一:智能眼镜在开放办公/户外场景的应用
    • 案例二:会议场景的跨国协作(智能耳机/设备)
    • 案例三:汽车销售场景(方言大模型应用)
    • 案例四:房地产沙盘讲解(方言大模型应用)
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档