今天我们将给大家介绍如何使用Lighthouse轻量服务器搭建一个属于自己的在线视频配音工具,可以将文案制作为mp3文件并且生成对应的字幕视频,以便大家在制作视频的过程中方便地为自己的视频添加自然逼真的配音 ,并且为其它视频创作者提供帮助 LiuChangFreeman/ms-tts-web (github.com) github.png 一、购买一台轻量服务器 腾讯云的学生优惠是相当给力的,2核4G一年只要 ,非常方便 os.png 通过在当前系统生成ssh密钥对,我们可以将生成的公钥添加到控制台中,并绑定到轻量实例,这样就可以免密码登录了 key.png key2.png 二、构建Docker镜像 build.png 在进行前端编译的过程中会卡住一段时间,这是由于node_modules小文件太多造成的,需要等待其完成,不可中断 npm.png 最后镜像构建完毕后,我们就可以开启服务了 build2. png 三、开启服务 首先我们需要准备一个目录专门用于存放临时文件,考虑到有可能会有人使用晓晓配音生成违法的文件,因此晓晓配音的链接有效期并不长,生成的mp4和mp3文件都是定时过期的 mkdir /tts_storage
爱奇艺在自有的海量内容优势下,基于Voice Conversion,MDX,Denoise等AI技术,研发了面向影视剧场景的AI配音技术IQDubbing,有效地缓解了影视剧配音本地化的问题。 LiveVideoStackCon 2022上海站大会邀请到了爱奇艺 AI算法高级经理 李海老师,为我们分享现代影视剧配音面临的挑战,以及面向影视剧的AI配音技术 —— 奇声(IQDubbing)的技术实现与应用实践 2、IQDubbing业务体系 为解决上述问题,爱奇艺基于若干个AI模型研发了奇声IQDubbing的解决方案,下面和大家分享下具体的业务流程和体系。 3.4.2 第二代框架 基于第一代基础上加入韵律模型,提高表现力,运用VQ-Wav2Vec训练模型,另外替换原有ASR,使用E2E的方式,时间分辨率从30ms提升到10ms。 3.6 配音评价体系 评价体系是非常重要的,我们需要从技术和业务两个维度评判声音输出。 技术维度方面,是算法团队自己的维度,简单说是通过技术角度测评。
工具名称:自动批量配音软件 运行系统:Windows 工具大小:6.5MB 工具截图: 使用方法: 需要设置阿里参数或腾讯参数,点击相应参数后的【获取】,可自动跳转到相应的获取页面(免费)。
---- 新智元报道 来源:towardsdatascience 编辑:白峰、永上 【新智元导读】最近,国外一个技术极客Alex看了电影《阳光泉水》后深受启发,决定自己用AI来生成一部。 他首先用GPT-2生成了一段荒诞不经的剧本,接着用StyleGAN2制作了一些人物和视觉特效,还找到了一个超实用的语音生成工具,一起来看下效果吧! 生成一份充满荒诞派情节的电影剧本 Alex使用由Openai推出的GPT-2语言模型,为自己生成了电影脚本。 接下来GPT-2语言模型会输出荒诞剧风格的脚本创作结果: GPT-2语言模型是OpenAI在2019年发布的一种人工智能语言处理模型。 StyleGAN2来一段人物视频特效 Alex是StyleGAN2的超级粉丝,使用StyleGAN2可以轻松地生成一个新面孔,甚至是转场动画。
面向开发者和内容创作者,基于2026年5月实测数据,对比轻量人工工具与云端API的适用场景、技术指标和成本,提供技术选型参考。不吹不黑,只列客观参数。 在开发视频自动配音、短剧角色生成、智能语音交互等系统时,TTS(文本转语音)是常见的基础能力。 (如“小明说:”)并分配不同声线,一键生成多角色对话声音克隆:支持5-10秒录音生成个人声音模型(技术来源为阿里达摩院),还原度较高技术门槛:低适用场景:短剧多角色、有声书多人演播、小说推文、虚拟主播角色配音 三、云端API方案:主流服务技术指标对比当项目需要批量生成(月产超过10万字)或实时交互时,建议评估云端TTSAPI。以下为几款主流方案的关键技术指标(基于国内数据中心节点实测)。 四、多角色短剧配音的自动化实现路径对于需要区分不同角色声线的短剧项目,建议采用以下技术路径:人工验证阶段:使用支持自动角色分配的轻量工具(免费试用)上传剧本,观察角色-声线映射效果,确定每个角色对应的voice_type
实测7款TTS方案,含延迟、成本、音质数据及代码示例在开发技术教程配音、智能客服、开源项目演示等场景时,文本转语音(TTS)是一项基础能力。 本文从技术视角实测了火山引擎TTS、AzureTTS、ElevenLabs等5款云API,并补充3款轻量级人工工具(配朵朵、叮叮配音、媒小三配音)的核心参数。 二、轻量工具方案(无API,适合人工操作)以下三款工具没有开放API,无法程序化调用,但在日常人工配音场景中操作便捷、免费额度实用。以下为客观参数描述,供非技术场景选型参考。 +字幕一体化的内容创作者2.叮叮配音——完全免费的轻量选项项目参数平台微信小程序价格模式完全免费音色数量近1000种限制不限字数、不限时长、无广告、无水印典型用途零成本应急配音3.媒小三配音——提供声音克隆功能项目参数平台网页 +App+小程序价格模式每日免费试用+会员制音色数量1300+种,含20种情绪表达声音克隆支持(5-10秒录音克隆,阿里达摩院技术合作)会员包含功能克隆+配音+AI写作+文案提取+爆文标题+脚本模板典型用途个人
本文从这个具体的技术问题出发,拆解语速自适应控制和口型适配两个技术方向的实现思路,并分享一些实际落地中的工程经验和当前局限。一、问题定义:翻译后的时长偏差从哪来要解决音画错位,首先要理解偏差的来源。 下面这张图展示了完整的自适应调整流程——从输入的原始音频和翻译文本出发,经过时长约束提取、TTS预估、偏差判断、策略选择,最终输出时长适配的多语种配音音频。图2:语速自适应与口型适配算法流程。 三、口型适配:一个更难的技术方向语速自适应解决的是"配音时长和视频时长对不上"的问题。但还有一个更细粒度的问题——口型适配。 也就是说,即使配音的总时长和视频的总时长一致了,观众仍然可能注意到角色的嘴型和听到的声音对不上。口型适配在技术上可以拆成两条路线。 prosody></speak>当策略为rewrite时,调用LLM进行约束改写:#约束改写的Prompt模板rewrite_prompt=f"""请将以下英文句子改写为更简洁的表达,要求:1.保持原始语义不变2.
我从去年开始深度研究配音相关的技术路线,实测了从轻量级小程序到企业级TTSAPI的多种方案,最终确定了三款值得关注、可纳入技术选型参考的工具,加上几款主流API和开源方案做对比。 今天将这些实测经验整理出来,供大家在技术选型和技术教程配音时参考——本文不构成商业推广,以下结论均基于个人长时间实机测试。 一、为什么需要关注配音技术从我自己的项目经验来看,在两种场景下,配音能力尤其关键:技术教程和开源项目演示:通过高质量的自动配音大幅降低内容制作成本,而且比人工录音可控性更强,方便分发给不同语种的受众。 这些是嵌入AIAgent或云原生应用时真正关键的技术要素。二、三款值得关注的国内配音工具(我的实测体验)以下三款工具在国内创作者群体中口碑较好,各有侧重。 四、开源TTS项目:数据私有着重考虑(2026年更新)除了上述方案,以及VoiceBox、VoxCPM2等轻量工具,今年4月美团还开源了LongCat-AudioDiT——直接在波形潜空间做扩散生成,从根部减少音色失真
基于2026年5月实测(测试环境:腾讯云轻量服务器北京节点),本文详细介绍三款国产轻量工具(叮叮配音、配朵朵、媒小三配音)的核心参数与使用场景,以及腾讯云TTS的API接入实践,最后给出从验证到生产的完整路径建议 App+小程序免费额度:每日免费试用(可体验全部功能)音色数量:1300+种,含20种情绪标签(冷笑、哽咽、怒吼等)多角色能力:自动识别剧中角色并分配不同声线声音克隆:支持(5-10秒录音克隆,阿里达摩院技术 三、分层组合建议项目阶段推荐方案成本适用场景需求验证叮叮配音+配朵朵0元快速测试音色、文案、字幕效果短剧/多角色验证媒小三配音(免费试用)0元确定角色声线映射小批量人工制作配朵朵(每日免费)0元日更视频 四、成本参考(月产10万中文字)方案月成本备注叮叮配音0元完全免费配朵朵(免费层)0元每日免费时长覆盖媒小三配音(试用)0元免费试用含全部功能腾讯云TTS约120元按量计费AzureTTS(免费层内)0 开发者可以充分利用轻量工具的免费额度完成需求验证(叮叮配音、配朵朵、媒小三配音),再根据规模化需求接入腾讯云TTS等云API实现自动化生产。
2026年,基于腾讯云开发者社区的实践经验,本文从技术选型视角出发,对比腾讯云语音合成(TTS)为代表的云API方案,并重点介绍三款适合人工操作的国产轻量工具(配朵朵、叮叮配音、媒小三配音)的核心参数与适用场景 一、开发者的两类配音场景场景类型典型任务技术诉求API自动化批量生成课程音频、智能客服、实时旁白稳定API、低延迟、可编程、成本可控人工轻量单条视频配音、字幕生成、临时应急界面简单、免费或低门槛、音质够用两类场景并不互斥 电影预告”“史诗旁白”“电竞解说”分类附加功能AI写作、音频转文字(导出SRT字幕)、视频转文字、格式转换生成速度约1分钟/次多角色能力手动切换不同音色(分条录制)技术特点无需编程,每日免费额度足够日更在开发流程中的价值 )生成速度约30秒/次多角色能力无技术价值:适用于API选型前的基准测试——用不同文案快速合成,对比语速、停顿效果。 (冷笑、哽咽、怒吼、撒娇等)多角色能力自动识别剧本角色对话并分配不同声线声音克隆支持(5-10秒录音克隆,阿里达摩院技术)生成速度约1分钟/次在开发中的应用:验证多角色配音的角色-声线映射方案,确定最佳组合后迁移到
"13" ["title"] => string(4) "thinkphp的缓存技术" ["content"] => string(8) "thinkphp的缓存技术" => string(4) "缓存" ["thumb"] => string(0) "" ["description"] => string(7) "thinkphp的缓存技术 第二次访问 array(10) { [0] => array(12) { ["id"] => string(1) "1" ["catid"] => string(2) "13" ["title"] => string(4) "thinkphp的缓存技术" ["content"] => string(8) "thinkphp的缓存技术" => string(4) "缓存" ["thumb"] => string(0) "" ["description"] => string(7) "thinkphp的缓存技术
utf-8"); get请求方式乱码解决: 方式一:每个数据都要单独的进行转换 String uname=req.getParameter("uname"); String uname2= 解决: session技术 使用: 创建session对象 HttpSession session =req.getSession(); 存储数据到session中 session.setAttribute 2、 校验session是否失效,存储数据到session对象中或者获取session中的数据或者删除session中的数据 特点: session解决了同一个用户不同请求的数据共享问题。 使用: 创建ServletContext对象 ServletContext sc1 = this.getServletContext(); ServletContext sc2 2、通过ServletConfig对象配置局部属性(专属每个servlet) ? ?
在制作技术教程、开源项目演示或产品介绍视频时,配音是不可或缺的环节。个人录音耗时且效果不稳定,而AI语音合成(TTS)技术已相当成熟。 二、FishAudio(FishSpeech1.5/S2-Pro):开源高保真TTS技术定位:FishAudio团队开源的TTS模型,提供RESTfulAPI,支持本地Docker部署,在数据隐私和成本控制上优势明显 FishSpeechS2-Pro采用双自回归(Dual-AR)架构,语义生成4B参数,残差码本生成400M参数,单个NVIDIAH200上实时因子低至0.195。 四、叮叮配音(小程序):纯免费轻量级TTS技术定位:完全免费的轻量级TTS工具,无API,但功能全面。核心能力:完全免费,不限字数、不限时长,无广告弹窗。 五、媒小三配音(网页/APP/小程序):声音克隆与AI写作技术定位:声音克隆+AI写作工具箱,无公开API,提供每日免费额度。
这里推荐几个GitHub上热门、好用的配音/语音合成/语音克隆项目,有通用TTS、语音克隆、视频配音、流式/轻量等不同需求的。 ▌1. GPT-SoVITS 功能: 零样本克隆:5秒音频即可克隆声线 少样本微调:1分钟训练,相似度/真实感大幅提升 多语言:中/英/日/韩/粤,跨语言保持音色 WebUI:音伴分离、切片、ASR、标注,新手友好 ▌2. ChatTTS(⭐ 35k+) 地址:https://github.com/2noise/ChatTTS 功能: 对话优化:自然度高、语气贴近真人对话 生成快、一次成型,适合短视频、播客、客服 ▌6. VideoLingo(⭐ 2.5k+) 地址:https://github.com/Huanshere/VideoLingo 功能: Netflix级字幕+配音一体化 支持GPT-SoVITS、Azure VoxCPM(OpenBMB,⭐ 2k+) 地址:https://github.com/OpenBMB/VoxCPM 功能: 无分词器TTS,直接在连续语音空间建模 上下文感知、零样本克隆、自然度高
代码的深度调用,模块层面上的依赖关系网,业务场景逻辑,非功能性需求等问题是需要相应的文档来完整地呈现的
虽然经常会陷入各种迷茫,学得越多会发现不会的东西也被无限放大,不过能用新的技术作出一些小项目小Demo还是会给自己些许自信与接着学习的动力。 项目部分展现 项目源码地址 ? ? ? 项目简介 1. APP后端搭建: 使用NodeJs的koa框架完成APP后端的搭建; 使用mongodb完成数据存储,通过mongoose模块完成对mongodb数据的构建; 2.
概览 本系列的第二讲,我原先计划聊一下OpenTracing这个技术,但计划赶不上变化,我发现OpenTracing的官网上已经声明:这部分的技术将迁移到OpenTelemetry。 技术标准 到今天,OpenTelemetry还没有完全落地,但这不妨碍我们看清未来的发展方向。 今天,我们依旧以Go语言为例,试试窥一斑而见全豹,对这个技术有个基本掌握。 = nil { log.Fatalf("failed to initialize stdouttrace export pipeline: %v", err) } 2. 针对当前已落地的技术,重要参考就是Jaeger和Prometheus。
据悉,Penrose Studio即将发布最新VR动画短片《Arden’s Wake:Tide's Fall》,《Arden’s Wake:Tide's Fall》是《Arden's Wake》的续集
<?php namespace frontend\controllers; use Yii; class IndexController extends \yii\web\Controller {
Web 容器时代:基于 Web 相关技术通过浏览器组件来实现界面及功能,典型的框架包括 Cordova(PhoneGap)、Ionic 和微信小程序。 Flutter区别于其他方案的关键技术 Flutter 是构建 Google 物联网操作系统 Fuchsia 的 SDK,主打跨平台、高保真、高性能。 Skia是什么 Skia 是一款用 C++ 开发的、性能彪悍的 2D 图像绘制引擎,其前身是一个向量绘图软件。 以下图为例:节点 1 在绘制完自身后,会再绘制节点 2,然后绘制它的子节点 3、4 和 5,最后绘制节点 6。 可以看到,由于一些其他原因(比如,视图手动合并)导致 2 的子节点 5 与它的兄弟节点 6 处于了同一层,这样会导致当节点 2 需要重绘的时候,与其无关的节点 6 也会被重绘,带来性能损耗。