今天我们将给大家介绍如何使用Lighthouse轻量服务器搭建一个属于自己的在线视频配音工具,可以将文案制作为mp3文件并且生成对应的字幕视频,以便大家在制作视频的过程中方便地为自己的视频添加自然逼真的配音 推荐同学们买一台作为学习使用,用来部署晓晓配音完全绰绰有余 image.png 购买完成后我们可以在控制台重置其系统为Ubunut+Docker专版,由于此系统自带了Docker环境,我们上手就能立刻开始部署 我们需要在防火墙放行对应的端口,推荐一次性开一个范围的端口,这样我们在部署服务的时候就可以不用每次都到控制台编辑规则了 20220414190405.png 登录我们的轻量服务器,然后在任意目录克隆晓晓配音的源代码 ,因此晓晓配音的链接有效期并不长,生成的mp4和mp3文件都是定时过期的 mkdir /tts_storage 然后,我们可以使用-v 参数将此目录作为缓存挂载到容器内部,同时使用-e 传递可用的端口号给容器服务使用 然后使用docker logs查看容器服务是否正常开启 docker logs ms_tts 当看到服务顺利监听到8019端口后,部署就完成了 run.png 最后我们就可以通过ip端口的方式访问晓晓配音服务了
爱奇艺在自有的海量内容优势下,基于Voice Conversion,MDX,Denoise等AI技术,研发了面向影视剧场景的AI配音技术IQDubbing,有效地缓解了影视剧配音本地化的问题。 LiveVideoStackCon 2022上海站大会邀请到了爱奇艺 AI算法高级经理 李海老师,为我们分享现代影视剧配音面临的挑战,以及面向影视剧的AI配音技术 —— 奇声(IQDubbing)的技术实现与应用实践 简单自我介绍下,我是李海,目前主要负责爱奇艺在成都的算法团队,负责影视剧AI配音技术方面的研究和工作。 要想将AI技术真正的落地到影视剧配音当中,在解决人声问题的同时还要解决影片中其他声音的部分。 那么,配音究竟是在做什么?是怎样的一个流程? 在爱奇艺AI配音场景下有很多海外剧集,海外剧包含英语、印度语、俄语等其他各国语言,翻译则是双向的,在爱奇艺剧集出海时需要把中文翻译成对应国家语言;第三步,配音本制作。
功能见名思意,可以将文本转为AI智能语音,支持阿里云和腾讯两种接口,简单实用。可批量执行,将需要转的文字放到txt文档中即可,转三千字大概需要一分钟左右,受电脑配置影响。 工具名称:自动批量配音软件 运行系统:Windows 工具大小:6.5MB 工具截图: 使用方法: 需要设置阿里参数或腾讯参数,点击相应参数后的【获取】,可自动跳转到相应的获取页面(免费)。
一开始原本只是想解决“批量生成配音”的问题,但真正做下来后发现,影响最终效果的其实不仅是模型本身,还包括:文案断句停顿控制voice_type选择长文本切分字幕时间轴音频拼接尤其中文场景,对“节奏感”会非常敏感 这篇主要记录一下最近测试几种AI配音方案时的一些实现过程,以及不同阶段适合的技术路线。一、项目背景:为什么没有直接上API最开始的方案其实很简单:文本→TTSAPI→返回MP3。 目前测试下来,像:叮叮配音配朵朵媒小三配音剪映AI配音这类封装型工具,在前期验证阶段会明显提高效率。尤其在处理:男声旁白多角色对话悬疑解说科普类视频时,直接试听会比反复调API参数更直观。 后来拆分后发现:中文AI配音里,“断句”比情绪参数影响更大。比如:text_list=["很多人以为鲸鱼不会交流。","但实际上,它们拥有复杂的声音系统。"]这种短句分段后,听感会明显比长句自然。
视频内容 你将看到两段画面相同的视频,请判断哪段来自视频原声,哪段是AI根据视频画面配上的假声? 莫非两个都是真的?不可能,答案文末揭晓。 (还有更多真假难辨的视频原声和配音大对比) 真假难辨,简直让人怀疑耳朵。模型合成的假音效,什么时候都这么逼真了?一切还得从这个自动为自然环境下的视频配音的项目说起。 ? 视听关联 看闪电,知雷声。 相关资料 项目地址: http://bvision11.cs.unc.edu/bigpen/yipin/visual2sound_webpage/visual2sound.html 论文地址: https 每个场景的配音均为一真一假,当场揭晓答案,猜猜你能对几个——
项目概述 KrillinAI是一款基于AI大模型技术的全流程视频翻译和配音工具,旨在为内容创作者提供从视频下载到最终成品的一站式解决方案。 多样化配音与语音克隆 完成翻译后,KrillinAI支持将文本转换为自然流畅的语音。 系统提供了多种配音选项,默认集成了CosyVoice的语音合成技术,用户还可以上传自己的语音样本进行声音克隆,实现个性化的配音效果。 系统支持多种AI服务提供商的配置,包括: OpenAI:用于转录和大语言模型服务 本地模型:faster-whisper用于本地语音识别 阿里云:提供语音服务、大模型服务和OSS云存储支持 安装和使用教程 AI驱动的智能处理:利用大语言模型进行字幕分段和翻译,质量远超传统基于规则的方法。 开源可定制:作为开源项目,用户可以根据自己的需求进行修改和扩展。
说起计算机音乐的发展史,还要追溯到 1951 年,英国计算机科学家艾伦 · 图灵是第一位录制计算机生成音乐的人。近年来,深度神经网络的出现促使了利用大规模音乐数据进行训练来生成音乐的相关工作。
---- 新智元报道 来源:towardsdatascience 编辑:白峰、永上 【新智元导读】最近,国外一个技术极客Alex看了电影《阳光泉水》后深受启发,决定自己用AI来生成一部。 Vlad Alex知道了这些后,激动不已,觉得自己也能让AI来拍一部电影,结果真的成功了。 如何制作自己的AI电影呢? 作为 Amazon AWS ai / ml 服务的一部分,Polly 提供各种语言的大量语音,但是Polly产生的语音更像主持人,并不总是适合虚构的内容。 EmptyRoom为我们展示了机器学习在生成视频方面的巨大潜力,不仅简化了流程,还分享了许多创造性的结果,当灵感枯竭的时候也许AI能带给你一股清泉,一起拥抱人工智能吧! 参考链接: https://towardsdatascience.com/ai-as-a-movie-maker-e5865b99a06c
做过短剧出海翻译的团队大概都踩过同一个坑:字幕翻译完了,配音也生成了,合到视频里一看:角色嘴已经闭上了,配音还在继续说。或者反过来,角色还在说话,配音已经结束了,画面里剩下一段尴尬的静默。 如果TTS引擎没有对情感参数做精细控制,生成的配音节奏和原始表演的节奏就会产生额外偏差。 下面这张图展示了一个典型的音画错位场景——原始中文音频和视频画面完美对齐,但翻译成英语后,由于文本膨胀,每个句段的配音时长都发生了变化,导致整条时间轴逐步偏移。图1:翻译后配音的音画时长错位问题模型。 第二条路线是视频侧适配:用AI直接修改视频中角色的嘴部区域,使其匹配目标语言的配音节奏。 四、工程落地:narrator-ai在时长控制上的实现上面讲的算法思路落到实际工程中,需要一套完整的处理管线来串联各个环节。这里以开源项目NarratorAI的翻译模块为例,说明一下具体的实现方式。
2026年,AI智能体已经学会了做视频——搜索影片、生成文案、AI配音、自动剪辑、合成视频,全程自动完成。你不需要懂剪辑软件,不需要会配音,甚至不需要找素材。 更神奇的是,你甚至可以让它晚上11点开始,批量做10条不同电影的解说视频,第二天早上起来,10条视频已经躺在文件夹里了。一个人+一只“龙虾”,就是一个完整的内容团队。 AI会排队执行,一条做完做下一条。晚上11点下达指令,第二天早上起来,10条视频全部躺在文件夹里。 3.4Skill内置资源库AI解说大师Skill内置了丰富的开箱即用资源:资源类型数量电影素材93部BGM146首配音角色63个(覆盖11种语言)解说风格模板90+套3.5可控性:每一步都能干预很多人担心 一套完整的自动化Pipeline包含:视频理解:AI自动分析原始素材内容文案生成:AI根据分析结果撰写解说文案配音剪辑:AI自动配音并完成剪辑整个流程可以通过一行命令或一段自然语言指令打通。
这俩波兰小伙创办11Labs的初衷还挺有意思:小时候看的好莱坞电影波兰语配音太烂,是时候用AI拯救一下了。 2023年,11Labs开始逐步推出他们的语音模型,包括文字转语音(TTS)、声音克隆等。 现在,11Labs能实现29个语种的语音生成。比如说中文,是酱婶的: 官网博客文章的语音版,也均由自家AI生成。 这次这家AI语音公司的融资稿,就是AI念的: 更绝的是,仅需要短至1分钟的音频素材,11Labs就能很好地“克隆”任何一个人的声音,连语调和情绪变化都能模仿到位的那种。 就在接下来几周,11Labs计划推出以下新产品: AI Dubbing Studio:为电影配音服务,功能包括配音生成,以及编辑文本、翻译和时间戳等等。 11Labs专注语音AI,还有一家12Labs正在搞视频理解。 p.s. 如果你也有了一点大胆的想法,温馨提示,从7到15的数字都被占了(手动狗头)。
语音初创公司ElevenLabs放大招,直接用AI给Sora经典视频完成了配音。网友惊呼离AI完全生成电影又近了一步。 就在今天,AI语音克隆初创公司ElevenLabs给经典的Sora演示视频,完成了绝美的配音。 听过之后,让人简直颅内高潮。 在片尾,ElevenLabs表示,以上所有的配音全部由AI生成,没有一点编辑痕迹。 网友惊呼,「这简直离完全由AI生成电影又近了一步」! 堪称突破后的突破! 估值11亿刀,前谷歌大佬创AI语音初创公司 前文提到的ElevenLabs,是由前谷歌机器学习工程师Piotr Dąbkowski和前Palantir部署策略师Mateusz Staniszewski, 到了2024年1月22日,ElevenLabs又在B轮融资中筹集了额外的8000万美元,使估值达到了11亿美元。同时,公司还宣布推出了一系列新产品,包括声音市场、AI 配音工作室和移动应用等。
今天是9月11日星期四,让我们一起来看看今天 Ai Agent 带来的 AI 领域的重要动态吧! ❤ Indeed Unveils AI Agents for Job Seekers and Recruiters 求职招聘领域迎来AI助手新时代 Indeed推出了两款AI Agents,分别面向求职者和招聘方 ❤ Secure AI Agents at Runtime with Docker Docker推出AI Agent运行时安全解决方案 Docker发布了关于如何在运行时保护AI Agent的新方法, 随着AI工具的强大和普及,它们也变得不可预测且易受攻击。从LLM输出中的幻觉到提示注入,AI工作流面临多重安全威胁。 AI Agent时嵌入运行时安全,为AI原生开发提供更可靠的安全保障。
AI初创公司里又跑出了一个独角兽! 最近,成立刚满两年的AI音频公司ElevenLabs宣布,他们获得了8000万美元的B轮融资,估值超过10亿美元! Voices可以让用户用AI建立一个自己专有的声音,或者是复制自己的声音,再生成新的内容。 Dubbing可以直接给现成的视频进行AI配音和翻译。 我们先来看看音频的生成。 打造一个独角兽只用两年 ElevenLabs创始人Staniszewski说,他和在波兰长大的Dabkowski从小看了很多配音很差的美国电影,这启发了他们用AI来做一个配音工具,后来就成为了现在的ElevenLabs 然后,ElevenLabs将服务扩展到11种语言,包括波兰语、德语、西班牙语、法语、意大利语、葡萄牙语和印地语。 配音工作室工作流程使用户能够配音整个电影,以及生成和编辑其转录本、翻译和时间码,从而提供对内容制作的额外控制。这些功能补充了现有的 AI 配音功能,可实现跨29种语言的自动化端到端视频翻译。
这里推荐几个GitHub上热门、好用的配音/语音合成/语音克隆项目,有通用TTS、语音克隆、视频配音、流式/轻量等不同需求的。 ▌1. OpenVoice(⭐ 34k+) 地址:https://github.com/myshell-ai/OpenVoice 功能: 极速克隆:仅需3秒参考音频 多语言:中英日韩法西,无缝切换 MIT协议: Coqui TTS(⭐ 34k+) 地址:https://github.com/coqui-ai/TTS 功能: 超全语言:支持1100+语言 多模型:YourTTS、VITS、Bark等,兼顾质量与速度 YouDub(⭐ 1.2k+) 地址:https://github.com/liuzhao1225/YouDub 功能: 自动:YouTube视频 → 语音识别 → 翻译 → 克隆原UP主音色 → 中文配音 VideoLingo(⭐ 2.5k+) 地址:https://github.com/Huanshere/VideoLingo 功能: Netflix级字幕+配音一体化 支持GPT-SoVITS、Azure
作者:Le Wang等 解读:AI生成未来 文章链接:https://arxiv.org/pdf/2508.00733 项目链接:https://ciyou2.github.io/AudioGen-Omni 为确保时序一致性,我们集成了 Synchformer,这是一种基于 Transformer 的视听同步模型,利用嘴唇运动和音素时序等稀疏线索,在无需密集监督的情况下实现精确对齐,适用于视频生成、配音和语音驱动动画等应用
第三步:直接下指令出片帮我做一个《飞驰人生》的电影解说视频AI会自动执行:搜索素材→匹配解说风格→选BGM→选配音角色→生成文案→合成视频→返回下载链接。简易版搞不定的,跟着下面详细版一步一步来。 安装验证:一句话触发电影解说全流程在AI助手对话框输入:帮我做一个《飞驰人生》的电影解说视频想要更精确的效果,指令越具体越好:帮我做《飞驰人生》的解说,解说风格用爆笑喜剧,配音用男声热血风,BGM用轻快节奏 AI解说大师内置93部电影素材、146首BGM、63个配音角色(支持11种语言)、90+种解说风格模板,全部开箱即用,无需上传任何素材。 查看所有可选项:<BASH>查看解说风格列表narrator-ai-clitasknarration-styles查看配音角色列表narrator-ai-clidubbinglistnarrator-ai-cli Q:AI自动选了不想要的风格或配音指令越具体效果越精确。说"解说风格用爆笑喜剧,配音用男声热血风",远好于只说"帮我做个解说"。
Stable Diffusion 已经发展到可以生成以假乱真图像的程度,无论是 AI 作画还是照片生成都已经可以生成得很精细,本文记录使用过程。 本文记录在 Windows 11 下安装、配置、运行 Stable-diffusion 的流程 过程中经常需要访问境外的网站,需要访问国外网站。 webui-user.bat 文件,我在过程中遇到很多问题,没有问题的同志可以跳过这一节 安装 CUDA 11.7 下载链接:https://developer.nvidia.com/cuda-11 CLIP 安装 CLIP 仓库链接 stable-diffusion-stability-ai 仓库地址: https://github.com/Stability-AI/stablediffusion LoRA(Low-Rank Adaptation of Large Language Models)粗略地讲就是利用少量的图像来对 AI 进行额外学习训练,并在一定程度上控制结果。
来源:HackerNews,Engadget,FastCompany|编译日期:2026-03-11今日概览今天我们共扫描了3个外媒来源,经过自动去重与筛选,为你保留了3个最值得关注的独立AI事件。 随着大模型能力的提升,开发者的关注点正在从“如何让AI回答问题”转向“如何让AI替我干活”。这篇热帖探讨了构建能够在后台持续运行、甚至在用户睡觉时自动执行复杂任务的AIAgent。 这类行业动态的价值不仅在于技术本身的实现,更在于它向我们揭示了市场下一步的真正需求——从被动的“对话式AI”向主动的“自动化行动AI”演进。 原文:HackerNews2.谷歌加速AI落地:Chrome版Gemini扩展至加、印、新三国来源:Engadget继在美国市场率先亮相后,谷歌正稳步扩大其浏览器端AI的覆盖范围。 后续我们可以优先盯住两类变化:一是大平台AI功能的渗透率与用户留存情况,二是当AI代理开始自动执行任务时,随之而来的数据隐私、合规约束以及全新的交互模式。
> 来源:我是AI Karpathy推出AgentHub:构建AI智能体专属协作平台 正文明:前特斯拉AI负责人Andrej Karpathy开源新项目AgentHub,打造专为AI智能体设计的极简协作平台 该平台基于Git架构,支持多Agent在同一代码库中提交与通信,目标是建立自治型AI研发社区,推动Agentic AI工程化落地。 > 来源:量子位 首个千万美金ARR的AI4S公司MetaNovas实现AI分子商业落地 正文明:MetaNovas成为全球首个达成千万美元年经常性收入(ARR)的AI for Science公司,其 Agentic AI平台MetAmigo完成从AI设计到合规备案的新分子全流程闭环。 双方将聚焦大模型基础设施与高效推理优化,加速AI在东南亚地区的产业化部署,进一步拓展英伟达在全球AI生态中的技术影响力。