首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >语音与语言理解的融合之路

语音与语言理解的融合之路

原创
作者头像
用户11764306
发布2026-03-08 22:42:08
发布2026-03-08 22:42:08
660
举报

某机构首席应用科学家探讨语音与对话技术的前沿。

会议

SLT 2021

2020年IEEE口语技术研讨会(SLT)于本周举行,该会议原定日期有所推迟。SLT是双年会,自2006年创办以来,此前仅举办过七届。某机构Alexa AI部门的首席应用科学家Yang Liu在2008年于该会议发表了她的第一篇论文,当时她还是德克萨斯大学达拉斯分校的助理教授。2012年,她担任了该会议的总联合主席,今年,她则担任特别会议和演示环节的主席。

“从这个研讨会的名字你大概就能猜到,它创立之初是为了让两个群体——纯粹的语音和信号处理社区,以及传统的自然语言处理社区——聚在一起,讨论口语理解或处理方面的应用,”Liu说。“这类应用有很多,比如语音摘要、语音检索和语音翻译。这不仅仅是语音识别或语音合成。一旦有了语音识别的输出,很可能还要执行某种语言理解。”当时,这类应用大多还是理论性的,但随着2014年某机构Echo的推出,它们成为了主流。随着语音助手的普及和自然语言理解研究的深入,SLT因其对语音技术的重视而变得更加引人注目。

在今年的SLT上,Liu主导选定了两个特别会议——围绕特定主题组织的专门研究轨道。这两个会议都聚焦于语音技术。

语音技术的前沿

其中一个会议的主题对Alexa来说非常重要:更自然的对话式语音交互。去年秋天,Alexa宣布了其即将推出的自然话轮转换功能,该功能将使客户能够与Alexa进行更长的、多轮次的互动,而无需重复唤醒词“Alexa”。该功能还将支持同时与多名客户进行对话,区分开他们彼此之间的对话和向Alexa发出的指令。

题为“面向真实对话处理的语音分离、识别和说话人日志技术融合”的SLT特别会议将探讨一系列相关议题。“它试图整合不同的技术,包括语音分离、语音识别和说话人日志,”Liu说。(说话人日志是指在多人对话中,将同一说话人的话语归组。)“当你试图处理多方对话时,所有这些相关技术都是必需的。这不像每个语音片段都只来自一个人。在现实应用中,你需要分离不同的说话人,而且你事先不知道有多少个说话人。还存在各种背景噪音。所有这些任务都面临着不同的挑战。”

另一个特别会议的主题是“说话人识别中的防欺骗”。“这是用于安全应用的说话人识别与验证,”Liu解释道。“你还需要考虑对抗性攻击。你可能见过‘深度伪造’——生成的图像、视频或人物看起来非常逼真。在语音领域也是如此。当你进行说话人验证时,你以为这是一个真实的说话人,但它可能是由机器生成的。”

对话技术的前沿

虽然Liu协助选定的SLT特别会议关注的是语音,但她在某机构的工作则集中在口语理解方程式的另一半:自然语言理解。具体来说,她研究对话技术。

“我们可以将对话大致分为两类,”Liu说。“一类是任务型对话。用户有特定目标:比如预订酒店、预订航班或预订餐厅。你需要检测用户的意图并找到相关的槽位和实体。另一类是开放域对话。Alexa Prize是我们为大学团队组织的竞赛,让他们构建所谓的社交机器人。你希望用户能与这些机器人进行对话,理想情况下能持续20分钟。”

“传统的方法是为不同领域(如电影、音乐、书籍、时尚)准备模板。然后我们可以设计不同的对话流程,并根据用户所说的内容提供不同的回应。在我们的新方法中,我们使用神经网络来生成回应,力求避免那些手写的或预定义的基于模板的回应。”

“我们也在研究如何将这些任务型对话和开放域对话结合起来。假设用户想预订航班。通常,这类系统会问:你的目的地是哪里?从哪里出发?哪一天?什么时间?但在对话过程中,用户可能会有一些额外的问题。比如‘我现在在航班上需要戴口罩吗?’这类问题不在代理预设的问题范围之内。我们希望系统能够回答这些问题。你可能可以从外部的FAQ页面或其他外部资源中找到答案。因此,我们正试图用基于外部知识源回答各类问题的能力来丰富任务型对话。”

然而,即使在对话的语境中,声学语音信号的信息也至关重要,Liu说。“我们希望构建一个具有同理心的对话系统,并理解用户的情绪。声学信息对此类任务很重要。不仅仅是看用户说了什么,还要关注用户的语气,”Liu解释道。“即使对于Alexa决定何时接话也是如此:用户是否已经说完那句话了?这在社交机器人的开放域对话中非常具有挑战性。我们可以根据人们所说的内容以及语调来使用不同的线索——比如当我使用升调时,可能表明我还没说完这句话,我正在想下一个词是什么。或者有时人们说‘嗯’只是为了保持话语权。”

“人们做这些事情非常自然,并且做得很好。对于机器来说,我们还有很长的路要走。”


研究领域

对话式AI

标签

设备定向语音检测、自动语音识别(ASR)、对话、口语技术研讨会(SLT)FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档