首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏bunny的专栏

    【玩转Lighthouse】轻松搭建视频配音工具晓晓配音

    今天我们将给大家介绍如何使用Lighthouse轻量服务器搭建一个属于自己的在线视频配音工具,可以将文案制作为mp3文件并且生成对应的字幕视频,以便大家在制作视频的过程中方便地为自己的视频添加自然逼真的配音 推荐同学们买一台作为学习使用,用来部署晓晓配音完全绰绰有余 image.png 购买完成后我们可以在控制台重置其系统为Ubunut+Docker专版,由于此系统自带了Docker环境,我们上手就能立刻开始部署 我们需要在防火墙放行对应的端口,推荐一次性开一个范围的端口,这样我们在部署服务的时候就可以不用每次都到控制台编辑规则了 20220414190405.png 登录我们的轻量服务器,然后在任意目录克隆晓晓配音的源代码 ,因此晓晓配音的链接有效期并不长,生成的mp4和mp3文件都是定时过期的 mkdir /tts_storage 然后,我们可以使用-v 参数将此目录作为缓存挂载到容器内部,同时使用-e 传递可用的端口号给容器服务使用 然后使用docker logs查看容器服务是否正常开启 docker logs ms_tts 当看到服务顺利监听到8019端口后,部署就完成了 run.png 最后我们就可以通过ip端口的方式访问晓晓配音服务了

    1.9K100编辑于 2022-04-14
  • 来自专栏软件安装

    10个GitHub热门的配音语音合成语音克隆项目

    这里推荐几个GitHub上热门、好用的配音/语音合成/语音克隆项目,有通用TTS、语音克隆、视频配音、流式/轻量等不同需求的。 ▌1. OpenVoice(⭐ 34k+) 地址:https://github.com/myshell-ai/OpenVoice 功能: 极速克隆:仅需3秒参考音频 多语言:中英日韩法西,无缝切换 MIT协议: Coqui TTS(⭐ 34k+) 地址:https://github.com/coqui-ai/TTS 功能: 超全语言:支持1100+语言 多模型:YourTTS、VITS、Bark等,兼顾质量与速度 Fish Speech(⭐ 10k+) 地址:https://github.com/fishaudio/fish-speech 功能: 基于VITS2,高质量、多语言、语音克隆 推理快、支持批量处理、全开源 ▌10.

    1.2K10编辑于 2026-03-26
  • 来自专栏音视频技术

    奇声(IQDubbing)-- 面向影视剧的AI配音技术

    爱奇艺在自有的海量内容优势下,基于Voice Conversion,MDX,Denoise等AI技术,研发了面向影视剧场景的AI配音技术IQDubbing,有效地缓解了影视剧配音本地化的问题。 LiveVideoStackCon 2022上海站大会邀请到了爱奇艺 AI算法高级经理 李海老师,为我们分享现代影视剧配音面临的挑战,以及面向影视剧的AI配音技术 —— 奇声(IQDubbing)的技术实现与应用实践 简单自我介绍下,我是李海,目前主要负责爱奇艺在成都的算法团队,负责影视剧AI配音技术方面的研究和工作。 3.4.2 第二代框架 基于第一代基础上加入韵律模型,提高表现力,运用VQ-Wav2Vec训练模型,另外替换原有ASR,使用E2E的方式,时间分辨率从30ms提升到10ms。 累计3篇语音类顶级国际会议论文,包括ISCSLP、InterSpeech,有10多个国家发明专利,获得5个软件著作权,多家主流媒体的报道,近期获得中国多媒体企业创新产品奖,受到业界蛮多的关注。

    3.1K20编辑于 2023-04-04
  • 来自专栏全栈开发日记

    自动批量真人配音软件

    功能见名思意,可以将文本转为AI智能语音,支持阿里云和腾讯两种接口,简单实用。可批量执行,将需要转的文字放到txt文档中即可,转三千字大概需要一分钟左右,受电脑配置影响。 工具名称:自动批量配音软件 运行系统:Windows 工具大小:6.5MB 工具截图: 使用方法: 需要设置阿里参数或腾讯参数,点击相应参数后的【获取】,可自动跳转到相应的获取页面(免费)。

    1.9K20编辑于 2022-05-13
  • 从轻量试听到API生产:2026常见AI配音方案整理

    一开始原本只是想解决“批量生成配音”的问题,但真正做下来后发现,影响最终效果的其实不仅是模型本身,还包括:文案断句停顿控制voice_type选择长文本切分字幕时间轴音频拼接尤其中文场景,对“节奏感”会非常敏感 这篇主要记录一下最近测试几种AI配音方案时的一些实现过程,以及不同阶段适合的技术路线。一、项目背景:为什么没有直接上API最开始的方案其实很简单:文本→TTSAPI→返回MP3。 目前测试下来,像:叮叮配音配朵朵媒小三配音剪映AI配音这类封装型工具,在前期验证阶段会明显提高效率。尤其在处理:男声旁白多角色对话悬疑解说科普类视频时,直接试听会比反复调API参数更直观。 后来拆分后发现:中文AI配音里,“断句”比情绪参数影响更大。比如:text_list=["很多人以为鲸鱼不会交流。","但实际上,它们拥有复杂的声音系统。"]这种短句分段后,听感会明显比长句自然。

    3510编辑于 2026-05-09
  • 2026年10配音工具横向评测:参数、成本、适用场景全公开

    基于2026年5月300小时实测,从免费额度、音色数量、多角色能力、技术门槛等维度,客观对比10款主流配音工具。不吹不黑,只列数据,供你按需选择。 做视频、做课件、做有声内容,选对配音工具能省下不少时间。下面把10款工具的核心参数和适用场景列出来,不含主观推荐,只作参考。 不支持技术门槛:极低典型用途:零成本起步、临时应急、个人日更2.配朵朵平台:网页+微信小程序免费额度:每日登录送免费时长(约3-5分钟视频)音色:1000+,按悬疑男声、战神男声、电竞解说等分类附加功能:AI 万字)可关注:火山引擎TTS、AzureTTS、ElevenLabs(高成本)、OpenAITTS(海外)注意事项:需编程,按量付费三、成本参考(月生成10万中文字)叮叮配音:0元配朵朵(免费层):0元媒小三配音 是:可先试用媒小三配音免费验证效果预估月产量?10万字以内:轻量工具免费额度通常足够10万字以上:建议云API按量计费,国内项目优先试用国内云服务是否涉及多语言跨境电商?

    7800编辑于 2026-05-09
  • 来自专栏量子位

    这个AI能自动给视频配音,真假难辨(不服来试)

    视频内容 你将看到两段画面相同的视频,请判断哪段来自视频原声,哪段是AI根据视频画面配上的假声? 莫非两个都是真的?不可能,答案文末揭晓。 (还有更多真假难辨的视频原声和配音大对比) 真假难辨,简直让人怀疑耳朵。模型合成的假音效,什么时候都这么逼真了?一切还得从这个自动为自然环境下的视频配音的项目说起。 ? 视听关联 看闪电,知雷声。 研究人员分别用上述三种模型训练筛选出来的10个类别的视频。此时,这些视频已经经过复制和拼接,时长均被填补到10秒。 研究人员用15.6 FPS(156帧10秒)的采样率采集视频,并在约16kHz的采样率对音频采样,具体为159744次每10秒。帧到帧的方法中,将步长s设置为1024。 多维评估结果 训练结果如何? 每个场景的配音均为一真一假,当场揭晓答案,猜猜你能对几个——

    3K50发布于 2018-04-02
  • 来自专栏CoderJia的工作笔记

    KrillinAI:基于AI大模型的一站式视频翻译配音解决方案

    项目概述 KrillinAI是一款基于AI大模型技术的全流程视频翻译和配音工具,旨在为内容创作者提供从视频下载到最终成品的一站式解决方案。 多样化配音与语音克隆 完成翻译后,KrillinAI支持将文本转换为自然流畅的语音。 系统提供了多种配音选项,默认集成了CosyVoice的语音合成技术,用户还可以上传自己的语音样本进行声音克隆,实现个性化的配音效果。 系统支持多种AI服务提供商的配置,包括: OpenAI:用于转录和大语言模型服务 本地模型:faster-whisper用于本地语音识别 阿里云:提供语音服务、大模型服务和OSS云存储支持 安装和使用教程 AI驱动的智能处理:利用大语言模型进行字幕分段和翻译,质量远超传统基于规则的方法。 开源可定制:作为开源项目,用户可以根据自己的需求进行修改和扩展。

    1.8K10编辑于 2025-04-16
  • 来自专栏机器之心

    MIT、IBM联合打造AI配音师:检测动作自动添加音效,视频「无声」胜「有声」

    说起计算机音乐的发展史,还要追溯到 1951 年,英国计算机科学家艾伦 · 图灵是第一位录制计算机生成音乐的人。近年来,深度神经网络的出现促使了利用大规模音乐数据进行训练来生成音乐的相关工作。

    1.1K20发布于 2020-08-28
  • 来自专栏新智元

    德国小哥用AI拍大片!GPT-2写台词、StyleGAN做特效、Replica来配音

    ---- 新智元报道 来源:towardsdatascience 编辑:白峰、永上 【新智元导读】最近,国外一个技术极客Alex看了电影《阳光泉水》后深受启发,决定自己用AI来生成一部。 Vlad Alex知道了这些后,激动不已,觉得自己也能让AI来拍一部电影,结果真的成功了。 如何制作自己的AI电影呢? 作为 Amazon AWS ai / ml 服务的一部分,Polly 提供各种语言的大量语音,但是Polly产生的语音更像主持人,并不总是适合虚构的内容。 EmptyRoom为我们展示了机器学习在生成视频方面的巨大潜力,不仅简化了流程,还分享了许多创造性的结果,当灵感枯竭的时候也许AI能带给你一股清泉,一起拥抱人工智能吧! 参考链接: https://towardsdatascience.com/ai-as-a-movie-maker-e5865b99a06c

    1.9K30发布于 2020-06-05
  • 短剧出海翻译中的音画同步难题:AI 配音时长自适应与口型适配技术方案

    做过短剧出海翻译的团队大概都踩过同一个坑:字幕翻译完了,配音也生成了,合到视频里一看:角色嘴已经闭上了,配音还在继续说。或者反过来,角色还在说话,配音已经结束了,画面里剩下一段尴尬的静默。 中文翻译成英文,文本平均膨胀30%—50%;翻译成日语或韩语,文本反而会压缩10%—20%。这种时长偏差一旦累积到整集短剧的尺度上,音画错位就会从"轻微不适"演变成"完全不可用"。 下面这张图展示了一个典型的音画错位场景——原始中文音频和视频画面完美对齐,但翻译成英语后,由于文本膨胀,每个句段的配音时长都发生了变化,导致整条时间轴逐步偏移。图1:翻译后配音的音画时长错位问题模型。 第二条路线是视频侧适配:用AI直接修改视频中角色的嘴部区域,使其匹配目标语言的配音节奏。 四、工程落地:narrator-ai在时长控制上的实现上面讲的算法思路落到实际工程中,需要一套完整的处理管线来串联各个环节。这里以开源项目NarratorAI的翻译模块为例,说明一下具体的实现方式。

    23310编辑于 2026-04-23
  • 来自专栏新智元

    AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

    语音初创公司ElevenLabs放大招,直接用AI给Sora经典视频完成了配音。网友惊呼离AI完全生成电影又近了一步。 就在今天,AI语音克隆初创公司ElevenLabs给经典的Sora演示视频,完成了绝美的配音。 听过之后,让人简直颅内高潮。 在片尾,ElevenLabs表示,以上所有的配音全部由AI生成,没有一点编辑痕迹。 网友惊呼,「这简直离完全由AI生成电影又近了一步」! 堪称突破后的突破! 同时,公司还宣布推出了一系列新产品,包括声音市场、AI 配音工作室和移动应用等。 自去年1月发布beta版平台以来,ElevenLabs便受到了创作者们的热捧。 2023年3月,流媒体自动化服务Super-Hi-Fi携手ElevenLabs,利用后者的软件和ChatGPT生成的提示词,为其虚拟DJ配音,推出了全自动的「AI Radio」广播服务。

    40910编辑于 2024-02-26
  • 配音工具技术选型:从轻量小程序到高保真TTS API的最佳实践

    2026年,AI配音市场的生态已经形成明显分层:对于开发者来说,如何根据具体场景配置好一套配音方案,已经从“有没有”进化到“如何最大化投入产出比”的阶段。 内置视频转文字、AI写作等附加功能。生成速度快(10-15秒),微信小程序即开即用。 ③媒小三配音:声音克隆与多重内容创作集成平台平台:网页+App+小程序核心功能:声音克隆:5-10秒录音即可高还原复刻专属声音模型,打造个人IP辨识度。 免费额度:每日免费配音额度;会员全包(配音、克隆、AI写作、文案提取),性价比较高。适用人群:自媒博主、短剧解说、小说推文、打造个人IP、需要多角色配音、追求从文案到配音一站式的创作者。 如果你是开发者,要把配音能力集成到AI应用中:优先考虑Azure、火山引擎TTS或FishAudio等提供API的云服务。

    28910编辑于 2026-04-28
  • 2026年如何配音?一个开发者的自白:本想自己写TTS,试完这3款我放弃了

    一共80多期,每期10-15分钟。自己录?嗓子受不了。买配音服务?问了几个平台,报价从几千到上万不等。我的第一反应是:自己写一个TTS服务。 第二款:配朵朵——全能效率工具,我现在的日常主力平台:网页+小程序推荐指数:⭐⭐⭐⭐⭐9.2/10一句话:从写稿到配音到字幕,一个工具全包了。 第三款:媒小三配音——声音克隆,打造个人IP平台:网页+App+小程序推荐指数:⭐⭐⭐⭐⭐9.5/10一句话:10秒克隆你的声音,然后让AI替你说话。教程做多了,有粉丝问我:你为什么不自己录? 后来我发现,可以用AI克隆我的声音——既保留个人标识,又不用反复录音。媒小三配音这个功能是真的强。实测体验:5-10秒录音:对着手机念一句“大家好,我是XX,欢迎来到我的频道”。 会员全包:一个会员=声音克隆+AI配音+AI写作+文案提取+爆文标题+短视频脚本模板。比我单买各种工具便宜太多。每日免费试用:不想买会员?每天也有免费额度体验克隆功能。

    22710编辑于 2026-04-28
  • 来自专栏open claw 养龙虾专区

    🎬 再也不熬夜剪片!自动生成视频完全指南(新手可复制)

    AI智能体自动化生成视频完全指南(新手可复制)做一条电影解说视频要多久?问了10个影视博主,答案从2小时到5小时不等。而我现在只需要说一句话,15分钟搞定。这不是科幻。 2026年,AI智能体已经学会了做视频——搜索影片、生成文案、AI配音、自动剪辑、合成视频,全程自动完成。你不需要懂剪辑软件,不需要会配音,甚至不需要找素材。 AI就会自动完成:搜索影片信息→从90+套解说风格模板里匹配风格→生成文案→调用AI配音→自动剪辑画面→匹配BGM→合成视频→给你下载链接。整个过程10-15分钟。 AI会自动完成:搜索《飞驰人生》的影片信息从90+套解说风格模板里选“爆笑喜剧”风格生成文案调用AI配音自动剪辑画面匹配BGM返回下载链接批量生产指令:“帮我做10条不同电影的解说视频,风格随机。” AI会排队执行,一条做完做下一条。晚上11点下达指令,第二天早上起来,10条视频全部躺在文件夹里。

    61100编辑于 2026-04-21
  • 来自专栏ADAS性能优化

    AI weekly (10-26)

    can stop a facial recognition network from identifying people in videos. https://venturebeat.com/2019/10 software tools for artificial intelligence deep learning applications. https://venturebeat.com/2019/10 verification solutions, has raised $10 million in seed funding. https://venturebeat.com/2019/10/24/incode-raises-10-million-to-verify-identities-with-ai Twitter now With the advent of AI, data access and accuracy are being improved even more How AI is transforming

    36620编辑于 2022-05-13
  • 影视解说视频智能生产全链路方案解析:从脚本生成到多平台分发

    脚本生成和配音合成已经有成熟的 AI 方案;视频剪辑的自动化程度取决于素材质量;字幕制作高度依赖配音时间轴的精度;多平台分发是目前自动化程度最低、工具碎片化最严重的环节。 --br {mso-data-placement:same-cell;}--> td {white-space:nowrap;border:0.5pt solid #dee0e3;font-size:10pt 四、narrator-ai-cli 接入全链路:脚本生成与配音合成环节的三种集成方式在上述五个环节中,narrator-ai-cli 主要覆盖脚本生成和配音合成两个环节,通过 CLI 接口把这两个环节的 接入方式二:同时替换脚本生成和配音合成<BASH>一条命令完成脚本生成 + 配音合成 + 视频合成narrator-ai-cli commentary create-movie \ --movie-file 工具配置:narrator-ai-cli(脚本+配音+剪辑+字幕)+ FFmpeg(格式转码)+ 手动发布小团队(日产5到10条)在个人创作者配置基础上,增加批量处理脚本和定时任务,实现素材入库后自动出片

    25210编辑于 2026-04-21
  • 人声音色克隆软件技术揭秘:三款工具的深度评测与实战指南

    AI技术重塑音频创作生态的2025年,人声音色克隆已从实验室走向大众创作领域。从短视频配音到虚拟歌手制作,从有声书录制到跨语言内容本地化,这项技术正在重新定义声音的价值。 一、巨推管家人声音色克隆软件作为国内首个实现"10秒极速克隆"的商业化平台,巨推管家凭借其自研的WaveNet-Pro声纹编码器,在中文语音克隆领域树立了新标杆。 语音实验室的产品,凭借其神经声场重建技术,在影视配音领域占据垄断地位。 该平台目前处理着全球63%的影视配音AI化需求。 AI核心场景短视频/有声书影视配音/游戏金融/政务响应速度实时(<500ms)近实时(800ms)本地部署(<10ms)多语言支持12种语言35种语言8种主要语言安全等级商业级专业级军工级成本模型按需付费

    1.7K10编辑于 2025-08-06
  • 来自专栏量子位

    你家的猫也能来段东北话了:快手快影一键「智能配音」,三种方言随意换,还能配出《舌尖》风

    实现如此功能的,就是快手快影最新上线的AI黑科技——智能配音。 输入文字,AI配音 所谓智能配音,就是用户只需输入文字,软件就能自动将之转化为高质量的视频配音。 使用方法非常简单。 而对于C端用户,特别是有视频配音需求的用户而言,AI配音只有更生动、更自然、更具韵律,才能真正满足他们的需求。 另外,面向B端的产品,可以对文本的规律、意义进行限定。 同时,将声码器的输出精度采用10bit muLaw压缩,用于提升采样精度。 实验证明,该方法能够让合成的音频听感更加真实和饱满。 如此一来,快影智能配音就在将合成速度提高2.5倍的同时,还能提升生成语音的真实感和饱满度。 此外,工程师们还针对用户等待时间进行了优化,每100字合成只需10s。 接地气,还看黑科技 智能配音这样的AI黑科技,无疑给老铁们带来了船新的玩法,引领了一波短视频新热潮。 其实,这已经不是快手第一次贴合用户需求,在产品里融入AI黑科技了。

    2.2K30发布于 2020-07-21
  • 来自专栏新智元

    文生音频新贵融资5亿,半年估值涨10倍,2年跑出一个AI独角兽!

    新智元报道 编辑:润 【新智元导读】ElevenLabs宣布B轮8000万刀融资,估值超过10亿美元,跻身独角兽行列。 AI初创公司里又跑出了一个独角兽! 最近,成立刚满两年的AI音频公司ElevenLabs宣布,他们获得了8000万美元的B轮融资,估值超过10亿美元! Voices可以让用户用AI建立一个自己专有的声音,或者是复制自己的声音,再生成新的内容。 Dubbing可以直接给现成的视频进行AI配音和翻译。 我们先来看看音频的生成。 而在Dubbing配音功能中,它可以支持将一段视频直接翻译为其他29国的语言。 任何一个没有经验的用户,几乎只要10分钟就能上手,生成效果非常好的语音内容。 配音工作室工作流程使用户能够配音整个电影,以及生成和编辑其转录本、翻译和时间码,从而提供对内容制作的额外控制。这些功能补充了现有的 AI 配音功能,可实现跨29种语言的自动化端到端视频翻译。

    36910编辑于 2024-02-26
领券