首页
学习
活动
专区
圈层
工具
发布
社区首页 >专栏 >语音合成模型Speech-02 API调用与集成指南

语音合成模型Speech-02 API调用与集成指南

原创
作者头像
用户11764306
发布2026-02-07 19:30:11
发布2026-02-07 19:30:11
1590
举报

某中心的Speech-02系列是文本转语音模型,能够生成具有情感表达的自然人声。该系列模型支持超过30种语言。

根据人工智能分析语音竞技场的评测,Speech-02-HD是当前最佳的文本转语音模型,而Speech-02-Turbo排名第三。

通过某机构,可以仅用一行代码运行这些模型。

聆听Speech-02

以下是Speech-02-HD模型朗读本篇博客文章改编版本的一个示例,以及生成该语音的预测。

(此处通常为音频链接或嵌入代码)

Speech-02模型是当今可用的最佳文本转语音模型。

尝试Speech-02

有两种模型可供选择:适用于高质量画外音和有声读物的Speech-02-HD,以及更便宜、更快、最适合实时应用的Speech-02-Turbo。

两种模型均可与克隆语音配合使用。语音克隆至少需要10秒的音频,训练大约需要30秒。每个语音的音调、语速和音量均可调整,使其听起来更自然。

可以在Playground中试用这些模型:

  • Speech-02-HD - 适用于高质量画外音和有声读物
  • Speech-02-Turbo - 适用于实时应用
  • 语音克隆 - 用于创建自定义语音

可以构建的应用

这些模型可以帮助您创建:

  • 声音自然的虚拟助手
  • 具有工作室品质音效的有声读物和画外音
  • 发音地道的语言学习工具
  • 能说多种语言的客服机器人
  • 适合偏好音频人群的可访问内容

情感控制

情感控制系统有两种方式为语音添加情感。自动检测模式可根据文本推断情感基调,而手动控制则允许设置所需的确切情感。这有助于使语音听起来自然而引人入胜,无论是为娱乐、教育还是商业制作内容。

语言支持

这些模型支持超过30种语言和口音。可以使用不同的英语变体(美式、英式、澳大利亚式和印度式)、亚洲语言(普通话、粤语、日语、韩语、越南语和印度尼西亚语)以及欧洲语言(法语、德语、西班牙语、葡萄牙语、土耳其语、俄语和乌克兰语)。

使用JavaScript进行语音克隆和文本转语音

可以使用JavaScript客户端运行模型。首先,安装Node.js客户端库:

代码语言:bash
复制
npm install replicate

将API令牌设置为环境变量:

代码语言:bash
复制
export REPLICATE_API_TOKEN=r8_9wm**********************************

(可以从账户获取API令牌。请妥善保管。)

导入并设置客户端:

代码语言:javascript
复制
import Replicate from "replicate";

const replicate = new Replicate({
  auth: process.env.REPLICATE_API_TOKEN,
});

首先,克隆一个语音。需要一个MP3、M4A或WAV格式的音频文件。文件时长应在10秒到5分钟之间,大小小于20MB:

代码语言:javascript
复制
const cloneOutput = await replicate.run(
  "minimax/voice-cloning",
  {
    input: {
      voice_file: "path/to/your/audio.wav", // mp3, wav, or m4a
      model: "speech-02-turbo" // speech-02-hd or speech-02-turbo
    }
  }
);

const voiceId = cloneOutput.voice_id;
console.log("Cloned voice ID:", voiceId);

现在使用克隆的语音进行文本转语音。可以使用<#x#>在单词之间添加停顿,其中x是以秒为单位的停顿时长(0.01-99.99):

代码语言:javascript
复制
const input = {
  text: "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
  voice_id: voiceId, // Use the cloned voice ID
  emotion: "happy" // Optional: happy, sad, angry, etc.
};

const output = await replicate.run("minimax/speech-02-turbo", { input });
console.log(output);

使用Python进行语音克隆和文本转语音

可以使用Python客户端运行模型。首先,安装客户端并设置API令牌:

代码语言:bash
复制
pip install replicate
export REPLICATE_API_TOKEN=r8_9wm**********************************

以下是克隆语音并使用其进行文本转语音的方法:

代码语言:python
复制
import replicate

# Clone a voice (needs MP3, M4A, or WAV file, 10s-5min, <20MB)
clone_output = replicate.run(
    "minimax/voice-cloning",
    input={
        "voice_file": "path/to/your/audio.wav",
        "model": "speech-02-turbo"
    }
)

# Generate speech with the cloned voice
# Add pauses between words using <#x#> where x is the pause duration in seconds (0.01-99.99)
output = replicate.run(
    "minimax/speech-02-turbo",
    input={
        "text": "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
        "voice_id": clone_output["voice_id"],
        "emotion": "happy"
    }
)
print(output)

定价

文本转语音模型根据输入和输出令牌收费。Turbo模型每百万字符收费30美元,而HD模型每百万字符收费50美元。一个令牌对应一个字符。

语音克隆每个语音收费3美元。

保持更新

通过关注X和加入Discord社区,获取最新信息并参与讨论。FINISHED

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。

如有侵权,请联系 cloudcommunity@tencent.com 删除。

评论
登录后参与评论
0 条评论
热度
最新
推荐阅读
目录
  • 聆听Speech-02
  • 尝试Speech-02
  • 可以构建的应用
  • 情感控制
  • 语言支持
  • 使用JavaScript进行语音克隆和文本转语音
  • 使用Python进行语音克隆和文本转语音
  • 定价
  • 保持更新
领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档