语音合成模型Speech-02 API调用与集成指南

原创

用户11764306

发布于 2026-02-07 19:30:11

1590

某中心的Speech-02系列是文本转语音模型，能够生成具有情感表达的自然人声。该系列模型支持超过30种语言。

根据人工智能分析语音竞技场的评测，Speech-02-HD是当前最佳的文本转语音模型，而Speech-02-Turbo排名第三。

通过某机构，可以仅用一行代码运行这些模型。

聆听Speech-02

以下是Speech-02-HD模型朗读本篇博客文章改编版本的一个示例，以及生成该语音的预测。

（此处通常为音频链接或嵌入代码）

Speech-02模型是当今可用的最佳文本转语音模型。

尝试Speech-02

有两种模型可供选择：适用于高质量画外音和有声读物的Speech-02-HD，以及更便宜、更快、最适合实时应用的Speech-02-Turbo。

两种模型均可与克隆语音配合使用。语音克隆至少需要10秒的音频，训练大约需要30秒。每个语音的音调、语速和音量均可调整，使其听起来更自然。

可以在Playground中试用这些模型：

Speech-02-HD - 适用于高质量画外音和有声读物
Speech-02-Turbo - 适用于实时应用
语音克隆 - 用于创建自定义语音

可以构建的应用

这些模型可以帮助您创建：

声音自然的虚拟助手
具有工作室品质音效的有声读物和画外音
发音地道的语言学习工具
能说多种语言的客服机器人
适合偏好音频人群的可访问内容

情感控制

情感控制系统有两种方式为语音添加情感。自动检测模式可根据文本推断情感基调，而手动控制则允许设置所需的确切情感。这有助于使语音听起来自然而引人入胜，无论是为娱乐、教育还是商业制作内容。

语言支持

这些模型支持超过30种语言和口音。可以使用不同的英语变体（美式、英式、澳大利亚式和印度式）、亚洲语言（普通话、粤语、日语、韩语、越南语和印度尼西亚语）以及欧洲语言（法语、德语、西班牙语、葡萄牙语、土耳其语、俄语和乌克兰语）。

使用JavaScript进行语音克隆和文本转语音

可以使用JavaScript客户端运行模型。首先，安装Node.js客户端库：

npm install replicate

将API令牌设置为环境变量：

export REPLICATE_API_TOKEN=r8_9wm**********************************

（可以从账户获取API令牌。请妥善保管。）

导入并设置客户端：

import Replicate from "replicate";

const replicate = new Replicate({
  auth: process.env.REPLICATE_API_TOKEN,
});

首先，克隆一个语音。需要一个MP3、M4A或WAV格式的音频文件。文件时长应在10秒到5分钟之间，大小小于20MB：

const cloneOutput = await replicate.run(
  "minimax/voice-cloning",
  {
    input: {
      voice_file: "path/to/your/audio.wav", // mp3, wav, or m4a
      model: "speech-02-turbo" // speech-02-hd or speech-02-turbo
    }
  }
);

const voiceId = cloneOutput.voice_id;
console.log("Cloned voice ID:", voiceId);

现在使用克隆的语音进行文本转语音。可以使用<#x#>在单词之间添加停顿，其中x是以秒为单位的停顿时长（0.01-99.99）：

const input = {
  text: "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
  voice_id: voiceId, // Use the cloned voice ID
  emotion: "happy" // Optional: happy, sad, angry, etc.
};

const output = await replicate.run("minimax/speech-02-turbo", { input });
console.log(output);

使用Python进行语音克隆和文本转语音

可以使用Python客户端运行模型。首先，安装客户端并设置API令牌：

pip install replicate
export REPLICATE_API_TOKEN=r8_9wm**********************************

以下是克隆语音并使用其进行文本转语音的方法：

import replicate

# Clone a voice (needs MP3, M4A, or WAV file, 10s-5min, <20MB)
clone_output = replicate.run(
    "minimax/voice-cloning",
    input={
        "voice_file": "path/to/your/audio.wav",
        "model": "speech-02-turbo"
    }
)

# Generate speech with the cloned voice
# Add pauses between words using <#x#> where x is the pause duration in seconds (0.01-99.99)
output = replicate.run(
    "minimax/speech-02-turbo",
    input={
        "text": "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
        "voice_id": clone_output["voice_id"],
        "emotion": "happy"
    }
)
print(output)