腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(6821)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
1
回答
语音分析自动语音识别,多
说话
人
分离,情感,
说话
人
重叠
语音,音频分析,自动语音识别,多
说话
人
分离,情感,
说话
人
重叠(同时
检测
说话
人
)。 我的项目需要
检测
音频上的扬声器并将它们分开,还需要
检测
它们之间是否有任何冲突(重叠)(一起
说话
)。
浏览 3
修改于2020-03-25
得票数 2
回答已采纳
1
回答
检测
视频中是否有人在讲话
我正在试图弄清楚如何
检测
我在视频中识别出的一个
人
是否在
说话
。我正在使用上发布的一些多人多摄像机跟踪代码来
检测
个人,我想确定是否有人在任何给定的时间
说话
。有没有人知道好的简历项目可以做到这一点?
说话
的
检测
只需要通过视频来完成。
浏览 7
修改于2015-12-13
得票数 1
3
回答
检测
Google Home或Amazon's Alexa的发言
人
我想知道是谁在和我的经纪
人
互动。 例如,我读到Alexa应该能够
检测
到不同的用户。谷歌主页的广告也让我觉得它应该
检测
到谁在
说话
。那我怎么知道是谁在
说话
呢?
浏览 5
提问于2016-12-19
得票数 3
回答已采纳
1
回答
Twilio:如何
检测
哪个参与者在一个会议上讲话
在Google中,所有参与者都可以通过视觉反馈看到哪些参与者正在
说话
。换句话说,当一个
人
开始
说话
时,他们的化身立即成为所有参与者的前景。下面是我对Twilio及其客户SDK的问题: 有没有办法通过SDK获得麦克风的输入电平?
浏览 7
提问于2016-10-18
得票数 0
回答已采纳
3
回答
如何
检测
是谁在
说话
?
我正在为我们的工作场所开发一个项目,用来操纵我们的环境,比如灯光、咖啡机、打印机等等,我不想知道如何才能
检测
到谁在和我们的系统
说话
。到目前为止,我已经成功地捕获了命令并执行了一些简单的事情,但是我想进一步
检测
这个人,所以如果一个
人
(例如"John“)正在
说话
,那么当他说"Hi system”时,系统会记录正在
说话
的人并响应"Hi John
浏览 3
修改于2013-03-20
得票数 2
3
回答
使用libxtract或其他小型C、C++库实现VAD功能
我尝试在Android上创建
说话
人
识别系统。目前,我使用libxtract从帧计算MFCC向量,使用libsvm进行分类。你知道如何使用libxtract或其他我可以在NDK下编译的小型C,C++库来
检测
帧中的语音(语音活动
检测
)吗?
浏览 0
提问于2013-09-11
得票数 3
1
回答
WebChat --语音识别语言的集成?
目前,用户必须“选择”他们的语言,但我希望机器
人
自动
检测
他们的语言时,用户
说话
。 非常感谢:-)
浏览 23
提问于2021-11-12
得票数 0
1
回答
Android识别两个人的声音不同
它将是这样-当应用程序将打开,2
人
将在它前面交谈。App将
检测
到两个人
说话
,并计算出有多少%(让两个人是A和B),
人
A
说话
,和
人
B相同。
浏览 5
提问于2014-11-23
得票数 6
回答已采纳
1
回答
卡尔迪性别鉴定
我正在寻找一个软件/库,可以识别
说话
者的性别。如果一个
人
有一个音频文件,我想让软件
检测
出什么性别说过话,说了多长时间。你知道Kaldi 是否可行吗?
浏览 34
提问于2016-11-07
得票数 0
1
回答
在WebRTC中为iOS测量麦克风电平
我需要
检测
麦克风何时开始接收响亮的声音(比如当一个
人
开始
说话
时),类似于在浏览器中使用所做的事情。我怎样才能
检测
到它,或者得到一些类似于流的东西,可以像AVCaptureAudioChannel或AVCaptureAudioDataOutput那样测量?
浏览 4
修改于2017-08-25
得票数 14
2
回答
说话
人
相关的语音识别系统需要多少训练数据?
为了实现高精度(< 15%的WER)
说话
人
相关ASR系统,需要从
说话
人
那里获得多少训练数据? 另外,依赖于
说话
人
的模型通常会有一个更大的音频语料库(来自许多
说话
人
)来补充吗?
浏览 1
提问于2017-04-02
得票数 2
回答已采纳
2
回答
IBM Watson支持“
说话
人数字化”/“
说话
人
识别”吗?
沃森返回没有
说话
人
标识符的转录文本。没有迹象表明哪个词是哪个
说话
人
说的。IBM Watson支持“
说话
人数字化”/“
说话
人
识别”吗?
浏览 4
修改于2016-03-30
得票数 2
回答已采纳
1
回答
在模型的推理中,如何选择合适的决策阈值?
我正在进行一个
说话
人
识别项目,我已经训练好了模型,它的准确率是90%,但我在进行推理时遇到了一个问题,模型给出了两个概率,因为它是为两个对话者训练的,但我希望当我
检测
到一个不在训练集中的
说话
人时,告诉我他是一个“未知的
说话
人
”,因此,我如何根据模型给我的两个概率来选择决策阈值?
浏览 4
修改于2021-10-04
得票数 1
2
回答
从缩放iOS SDK自定义会议实现中获取当前活动用户
一切正常,但我还不知道如何才能得到当前
活跃
用户的userID。 我已经实现了下面的委托方法,它告诉了当前
活跃
的视频用户,但不幸的是,它显示了会议中除我之外的所有其他参与者。userName { } } 我需要知道谁是当前的
活跃
用户,即使是我在
说话
。
浏览 32
提问于2021-04-30
得票数 1
回答已采纳
4
回答
说话
人
识别
我怎么能区分两个
说话
的人呢?例如,如果有人说"hello“,然后另一个
人
说"hello”,我应该在音频数据中查找哪种签名?周期性? 非常感谢能回答这个问题的人!
浏览 1
修改于2012-04-30
得票数 3
1
回答
如何从.tflite中检索原始TensorFlow冻结图?
基本上,我正在尝试使用谷歌预先训练好的进行
说话
人
检测
。但这是一个TensorFlow Lite模型,我不能在我的Linux上使用它。为此,我试图找到一个转换回它的冻结图模型。
浏览 7
提问于2018-01-04
得票数 0
回答已采纳
3
回答
Android中的语音活动
检测
我试图
检测
人
什么时候开始
说话
,这样当这个人停止
说话
大约2秒时,我就可以继续将声音数据发送到web服务。现在,我用一个阈值来表示振幅,如果它超过一个值(即1500),那么我假设这个人在
说话
。
浏览 4
修改于2017-05-23
得票数 0
回答已采纳
2
回答
基于音频的性别
检测
我一直在到处寻找某种形式的性别
检测
,通过读取音频文件的频率数据。我一直没有找到一个可以做到这一点的程序,或者甚至是任何可以输出音频数据的程序,所以我可以编写一个基本的程序来读取它,并操纵它来确定
说话
者的性别。 你们谁知道我在哪里能找到帮助我的东西吗?重申一下,我基本上希望有一个程序,当一个
人
对着麦克风
说话
时,它会准确地说出
说话
者的性别。
浏览 3
提问于2013-02-04
得票数 1
1
回答
说话
人
识别vs
说话
人
识别google cloud vs microsoft azure vs ibm watson vs aws转录
我想做一个语音到文本分析的项目,我想要1)
说话
人
识别,2)
说话
人
二元化,3)语音到文本。现在我正在测试为微软,谷歌,亚马逊,IBM等公司提供的各种API,我发现在微软,你可以选择用户注册和
说话
人
识别(),但是,所有其他平台都有
说话
人
二值化,但没有
说话
人
识别。
浏览 0
提问于2020-01-20
得票数 0
2
回答
如何实现“谁在
说话
?”webrtc ios应用程序的功能?
我想
检测
到是谁在同伴联系中
说话
。 更具体地说,我想
检测
我连接到的远程对等端的音频活动,这样我就可以
检测
到正在
说话
的人了。
浏览 11
修改于2018-08-27
得票数 4
回答已采纳
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券