Sidekit是一个主要用于说话人识别任务的工具包，它的框架(与其他类似的工具包一样)依赖于由.wav、.sph或原始PCM格式的音频文件组成的训练数据。如果您只是在构建一个GMM，并且不打算将其用于说话人识别实验，我建议您使用另一个用于一般统计目的的工具包(scikit-learn可能是一个很好的选择)。

如果您确实计划执行说话人识别任务，则必须对数据进行一些初始工作。如果您的文本数据是某种形式的说话人数据，您可以将其转换为适当的格式。例如，如果y部分是原始音频，则将其转换为wav文件。如果y是倒谱特征或其他特征，则以h5.-格式存储。完成此操作后，您可以按照Sidekit主页上的tutorials为说话人识别任务构建一个GMM。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/44235004

复制

相似问题

问使用SIDEKIT 1.2构建GMM
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用SIDEKIT 1.2构建GMMEN