某中心的Speech-02系列是文本转语音模型,能够生成具有情感表达的自然人声。该系列模型支持超过30种语言。
根据人工智能分析语音竞技场的评测,Speech-02-HD是当前最佳的文本转语音模型,而Speech-02-Turbo排名第三。
通过某机构,可以仅用一行代码运行这些模型。
以下是Speech-02-HD模型朗读本篇博客文章改编版本的一个示例,以及生成该语音的预测。
(此处通常为音频链接或嵌入代码)
Speech-02模型是当今可用的最佳文本转语音模型。
有两种模型可供选择:适用于高质量画外音和有声读物的Speech-02-HD,以及更便宜、更快、最适合实时应用的Speech-02-Turbo。
两种模型均可与克隆语音配合使用。语音克隆至少需要10秒的音频,训练大约需要30秒。每个语音的音调、语速和音量均可调整,使其听起来更自然。
可以在Playground中试用这些模型:
这些模型可以帮助您创建:
情感控制系统有两种方式为语音添加情感。自动检测模式可根据文本推断情感基调,而手动控制则允许设置所需的确切情感。这有助于使语音听起来自然而引人入胜,无论是为娱乐、教育还是商业制作内容。
这些模型支持超过30种语言和口音。可以使用不同的英语变体(美式、英式、澳大利亚式和印度式)、亚洲语言(普通话、粤语、日语、韩语、越南语和印度尼西亚语)以及欧洲语言(法语、德语、西班牙语、葡萄牙语、土耳其语、俄语和乌克兰语)。
可以使用JavaScript客户端运行模型。首先,安装Node.js客户端库:
npm install replicate将API令牌设置为环境变量:
export REPLICATE_API_TOKEN=r8_9wm**********************************(可以从账户获取API令牌。请妥善保管。)
导入并设置客户端:
import Replicate from "replicate";
const replicate = new Replicate({
auth: process.env.REPLICATE_API_TOKEN,
});首先,克隆一个语音。需要一个MP3、M4A或WAV格式的音频文件。文件时长应在10秒到5分钟之间,大小小于20MB:
const cloneOutput = await replicate.run(
"minimax/voice-cloning",
{
input: {
voice_file: "path/to/your/audio.wav", // mp3, wav, or m4a
model: "speech-02-turbo" // speech-02-hd or speech-02-turbo
}
}
);
const voiceId = cloneOutput.voice_id;
console.log("Cloned voice ID:", voiceId);现在使用克隆的语音进行文本转语音。可以使用<#x#>在单词之间添加停顿,其中x是以秒为单位的停顿时长(0.01-99.99):
const input = {
text: "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
voice_id: voiceId, // Use the cloned voice ID
emotion: "happy" // Optional: happy, sad, angry, etc.
};
const output = await replicate.run("minimax/speech-02-turbo", { input });
console.log(output);可以使用Python客户端运行模型。首先,安装客户端并设置API令牌:
pip install replicate
export REPLICATE_API_TOKEN=r8_9wm**********************************以下是克隆语音并使用其进行文本转语音的方法:
import replicate
# Clone a voice (needs MP3, M4A, or WAV file, 10s-5min, <20MB)
clone_output = replicate.run(
"minimax/voice-cloning",
input={
"voice_file": "path/to/your/audio.wav",
"model": "speech-02-turbo"
}
)
# Generate speech with the cloned voice
# Add pauses between words using <#x#> where x is the pause duration in seconds (0.01-99.99)
output = replicate.run(
"minimax/speech-02-turbo",
input={
"text": "Hello! <#0.5#> This is a test using my cloned voice. <#1.0#> I can add pauses between words to make the speech sound more natural.",
"voice_id": clone_output["voice_id"],
"emotion": "happy"
}
)
print(output)文本转语音模型根据输入和输出令牌收费。Turbo模型每百万字符收费30美元,而HD模型每百万字符收费50美元。一个令牌对应一个字符。
语音克隆每个语音收费3美元。
通过关注X和加入Discord社区,获取最新信息并参与讨论。FINISHED
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。