在用于扬声器适配技术的CMU Sphinx(Sphinx-4)中,我使用了以下代码片段
Stats stats = recognizer.createStats(nrOfClusters);
recognizer.startRecognition(stream);
while ((result = recognizer.getResult()) != null) {
stats.collect(result);
}
recognizer.stopRecognition();
// Transform represents the speech profile
Transform transform = stats.createTransform();
recognizer.setTransform(transform);为了取得好的结果,nrOfClusters参数值应该是多少?我们如何使用这个片段来适应音频中的多个扬声器?
发布于 2016-08-31 15:48:58
为了取得好的结果,nrOfClusters参数值应该是多少?
集群的数量取决于适应数据的数量。数据越多,可以使用的集群就越多。例如,如果您有30秒的演讲时间,那么一个集群就足够了。如果你有10分钟的演讲时间,你最多可以使用32组。
我们如何使用这个片段来适应音频中的多个扬声器?
如果你知道每一位发言者的发言时间,你可以分别对每一位发言者进行调整。为不同的发言者创造一个共同的转变没有多大意义。
https://stackoverflow.com/questions/39252399
复制相似问题