搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

1回答

语音分析自动语音识别，多说话人分离，情感，说话人重叠

语音，音频分析，自动语音识别，多说话人分离，情感，说话人重叠(同时检测说话人)。我的项目需要检测音频上的扬声器并将它们分开，还需要检测它们之间是否有任何冲突(重叠)(一起说话)。

浏览 3修改于2020-03-25得票数 2

回答已采纳

1回答

检测视频中是否有人在讲话

我正在试图弄清楚如何检测我在视频中识别出的一个人是否在说话。我正在使用上发布的一些多人多摄像机跟踪代码来检测个人，我想确定是否有人在任何给定的时间说话。有没有人知道好的简历项目可以做到这一点？说话的检测只需要通过视频来完成。

浏览 7修改于2015-12-13得票数 1

3回答

检测Google Home或Amazon's Alexa的发言人

我想知道是谁在和我的经纪人互动。例如，我读到Alexa应该能够检测到不同的用户。谷歌主页的广告也让我觉得它应该检测到谁在说话。那我怎么知道是谁在说话呢？

浏览 5提问于2016-12-19得票数 3

回答已采纳

1回答

Twilio:如何检测哪个参与者在一个会议上讲话

在Google中，所有参与者都可以通过视觉反馈看到哪些参与者正在说话。换句话说，当一个人开始说话时，他们的化身立即成为所有参与者的前景。下面是我对Twilio及其客户SDK的问题：有没有办法通过SDK获得麦克风的输入电平？

浏览 7提问于2016-10-18得票数 0

回答已采纳

3回答

如何检测是谁在说话？

我正在为我们的工作场所开发一个项目，用来操纵我们的环境，比如灯光、咖啡机、打印机等等，我不想知道如何才能检测到谁在和我们的系统说话。到目前为止，我已经成功地捕获了命令并执行了一些简单的事情，但是我想进一步检测这个人，所以如果一个人(例如"John“)正在说话，那么当他说"Hi system”时，系统会记录正在说话的人并响应"Hi John

浏览 3修改于2013-03-20得票数 2

3回答

使用libxtract或其他小型C、C++库实现VAD功能

我尝试在Android上创建说话人识别系统。目前，我使用libxtract从帧计算MFCC向量，使用libsvm进行分类。你知道如何使用libxtract或其他我可以在NDK下编译的小型C，C++库来检测帧中的语音(语音活动检测)吗？

浏览 0提问于2013-09-11得票数 3

1回答

WebChat --语音识别语言的集成？

目前，用户必须“选择”他们的语言，但我希望机器人自动检测他们的语言时，用户说话。非常感谢:-)

浏览 23提问于2021-11-12得票数 0

1回答

Android识别两个人的声音不同

它将是这样-当应用程序将打开，2人将在它前面交谈。App将检测到两个人说话，并计算出有多少%(让两个人是A和B)，人A说话，和人B相同。

浏览 5提问于2014-11-23得票数 6

回答已采纳

1回答

卡尔迪性别鉴定

我正在寻找一个软件/库，可以识别说话者的性别。如果一个人有一个音频文件，我想让软件检测出什么性别说过话，说了多长时间。你知道Kaldi 是否可行吗？

浏览 34提问于2016-11-07得票数 0

1回答

在WebRTC中为iOS测量麦克风电平

我需要检测麦克风何时开始接收响亮的声音(比如当一个人开始说话时)，类似于在浏览器中使用所做的事情。我怎样才能检测到它，或者得到一些类似于流的东西，可以像AVCaptureAudioChannel或AVCaptureAudioDataOutput那样测量？

浏览 4修改于2017-08-25得票数 14

2回答

说话人相关的语音识别系统需要多少训练数据？

为了实现高精度(< 15%的WER)说话人相关ASR系统，需要从说话人那里获得多少训练数据？另外，依赖于说话人的模型通常会有一个更大的音频语料库(来自许多说话人)来补充吗？

浏览 1提问于2017-04-02得票数 2

回答已采纳

2回答

IBM Watson支持“说话人数字化”/“说话人识别”吗？

沃森返回没有说话人标识符的转录文本。没有迹象表明哪个词是哪个说话人说的。IBM Watson支持“说话人数字化”/“说话人识别”吗？

浏览 4修改于2016-03-30得票数 2

回答已采纳

1回答

在模型的推理中，如何选择合适的决策阈值？

我正在进行一个说话人识别项目，我已经训练好了模型，它的准确率是90%，但我在进行推理时遇到了一个问题，模型给出了两个概率，因为它是为两个对话者训练的，但我希望当我检测到一个不在训练集中的说话人时，告诉我他是一个“未知的说话人”，因此，我如何根据模型给我的两个概率来选择决策阈值？

浏览 4修改于2021-10-04得票数 1

2回答

从缩放iOS SDK自定义会议实现中获取当前活动用户

一切正常，但我还不知道如何才能得到当前活跃用户的userID。我已经实现了下面的委托方法，它告诉了当前活跃的视频用户，但不幸的是，它显示了会议中除我之外的所有其他参与者。userName { } } 我需要知道谁是当前的活跃用户，即使是我在说话。

浏览 32提问于2021-04-30得票数 1

回答已采纳

4回答

说话人识别

我怎么能区分两个说话的人呢？例如，如果有人说"hello“，然后另一个人说"hello”，我应该在音频数据中查找哪种签名？周期性？非常感谢能回答这个问题的人！

浏览 1修改于2012-04-30得票数 3

1回答

如何从.tflite中检索原始TensorFlow冻结图？

基本上，我正在尝试使用谷歌预先训练好的进行说话人检测。但这是一个TensorFlow Lite模型，我不能在我的Linux上使用它。为此，我试图找到一个转换回它的冻结图模型。

浏览 7提问于2018-01-04得票数 0

回答已采纳

3回答

Android中的语音活动检测

我试图检测人什么时候开始说话，这样当这个人停止说话大约2秒时，我就可以继续将声音数据发送到web服务。现在，我用一个阈值来表示振幅，如果它超过一个值(即1500)，那么我假设这个人在说话。

浏览 4修改于2017-05-23得票数 0

回答已采纳

2回答

基于音频的性别检测

我一直在到处寻找某种形式的性别检测，通过读取音频文件的频率数据。我一直没有找到一个可以做到这一点的程序，或者甚至是任何可以输出音频数据的程序，所以我可以编写一个基本的程序来读取它，并操纵它来确定说话者的性别。你们谁知道我在哪里能找到帮助我的东西吗？重申一下，我基本上希望有一个程序，当一个人对着麦克风说话时，它会准确地说出说话者的性别。

浏览 3提问于2013-02-04得票数 1

1回答

说话人识别vs说话人识别google cloud vs microsoft azure vs ibm watson vs aws转录

我想做一个语音到文本分析的项目，我想要1)说话人识别，2)说话人二元化，3)语音到文本。现在我正在测试为微软，谷歌，亚马逊，IBM等公司提供的各种API，我发现在微软，你可以选择用户注册和说话人识别()，但是，所有其他平台都有说话人二值化，但没有说话人识别。

浏览 0提问于2020-01-20得票数 0

2回答

如何实现“谁在说话？”webrtc ios应用程序的功能？

我想检测到是谁在同伴联系中说话。更具体地说，我想检测我连接到的远程对等端的音频活动，这样我就可以检测到正在说话的人了。

浏览 11修改于2018-08-27得票数 4

回答已采纳

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

语音分析自动语音识别，多说话人分离，情感，说话人重叠

检测视频中是否有人在讲话

检测Google Home或Amazon's Alexa的发言人

Twilio:如何检测哪个参与者在一个会议上讲话

如何检测是谁在说话？

使用libxtract或其他小型C、C++库实现VAD功能

WebChat --语音识别语言的集成？

Android识别两个人的声音不同

卡尔迪性别鉴定

在WebRTC中为iOS测量麦克风电平

说话人相关的语音识别系统需要多少训练数据？

IBM Watson支持“说话人数字化”/“说话人识别”吗？

在模型的推理中，如何选择合适的决策阈值？

从缩放iOS SDK自定义会议实现中获取当前活动用户

说话人识别

如何从.tflite中检索原始TensorFlow冻结图？

Android中的语音活动检测

基于音频的性别检测

说话人识别vs说话人识别google cloud vs microsoft azure vs ibm watson vs aws转录

如何实现“谁在说话？”webrtc ios应用程序的功能？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐