首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏bunny的专栏

    【玩转Lighthouse】轻松搭建视频配音工具晓晓配音

    今天我们将给大家介绍如何使用Lighthouse轻量服务器搭建一个属于自己的在线视频配音工具,可以将文案制作为mp3文件并且生成对应的字幕视频,以便大家在制作视频的过程中方便地为自己的视频添加自然逼真的配音 ,并且为其它视频创作者提供帮助 LiuChangFreeman/ms-tts-web (github.com) github.png 一、购买一台轻量服务器 腾讯云的学生优惠是相当给力的,2核4G一年只要 推荐同学们买一台作为学习使用,用来部署晓晓配音完全绰绰有余 image.png 购买完成后我们可以在控制台重置其系统为Ubunut+Docker专版,由于此系统自带了Docker环境,我们上手就能立刻开始部署 我们需要在防火墙放行对应的端口,推荐一次性开一个范围的端口,这样我们在部署服务的时候就可以不用每次都到控制台编辑规则了 20220414190405.png 登录我们的轻量服务器,然后在任意目录克隆晓晓配音的源代码 ,因此晓晓配音的链接有效期并不长,生成的mp4和mp3文件都是定时过期的 mkdir /tts_storage 然后,我们可以使用-v 参数将此目录作为缓存挂载到容器内部,同时使用-e 传递可用的端口号给容器服务使用

    1.9K100编辑于 2022-04-14
  • 来自专栏音视频技术

    奇声(IQDubbing)-- 面向影视剧的AI配音技术

    爱奇艺在自有的海量内容优势下,基于Voice Conversion,MDX,Denoise等AI技术,研发了面向影视剧场景的AI配音技术IQDubbing,有效地缓解了影视剧配音本地化的问题。 LiveVideoStackCon 2022上海站大会邀请到了爱奇艺 AI算法高级经理 李海老师,为我们分享现代影视剧配音面临的挑战,以及面向影视剧的AI配音技术 —— 奇声(IQDubbing)的技术实现与应用实践 简单自我介绍下,我是李海,目前主要负责爱奇艺在成都的算法团队,负责影视剧AI配音技术方面的研究和工作。 要想将AI技术真正的落地到影视剧配音当中,在解决人声问题的同时还要解决影片中其他声音的部分。 那么,配音究竟是在做什么?是怎样的一个流程? 4、IQDubbing上线效果 4.1 上线效果 目前爱奇艺配音已经在中文主站和海外站(泰国站、越南站等)上线,中文主站包括007系列大战皇家赌场,终结者和007黑日危机等都是当家热剧。

    3.1K20编辑于 2023-04-04
  • 来自专栏全栈开发日记

    自动批量真人配音软件

    功能见名思意,可以将文本转为AI智能语音,支持阿里云和腾讯两种接口,简单实用。可批量执行,将需要转的文字放到txt文档中即可,转三千字大概需要一分钟左右,受电脑配置影响。 工具名称:自动批量配音软件 运行系统:Windows 工具大小:6.5MB 工具截图: 使用方法: 需要设置阿里参数或腾讯参数,点击相应参数后的【获取】,可自动跳转到相应的获取页面(免费)。

    1.9K20编辑于 2022-05-13
  • 从轻量试听到API生产:2026常见AI配音方案整理

    一开始原本只是想解决“批量生成配音”的问题,但真正做下来后发现,影响最终效果的其实不仅是模型本身,还包括:文案断句停顿控制voice_type选择长文本切分字幕时间轴音频拼接尤其中文场景,对“节奏感”会非常敏感 这篇主要记录一下最近测试几种AI配音方案时的一些实现过程,以及不同阶段适合的技术路线。一、项目背景:为什么没有直接上API最开始的方案其实很简单:文本→TTSAPI→返回MP3。 目前测试下来,像:叮叮配音配朵朵媒小三配音剪映AI配音这类封装型工具,在前期验证阶段会明显提高效率。尤其在处理:男声旁白多角色对话悬疑解说科普类视频时,直接试听会比反复调API参数更直观。 后来拆分后发现:中文AI配音里,“断句”比情绪参数影响更大。比如:text_list=["很多人以为鲸鱼不会交流。","但实际上,它们拥有复杂的声音系统。"]这种短句分段后,听感会明显比长句自然。

    3510编辑于 2026-05-09
  • 来自专栏量子位

    这个AI能自动给视频配音,真假难辨(不服来试)

    视频内容 你将看到两段画面相同的视频,请判断哪段来自视频原声,哪段是AI根据视频画面配上的假声? 莫非两个都是真的?不可能,答案文末揭晓。 (还有更多真假难辨的视频原声和配音大对比) 真假难辨,简直让人怀疑耳朵。模型合成的假音效,什么时候都这么逼真了?一切还得从这个自动为自然环境下的视频配音的项目说起。 ? 视听关联 看闪电,知雷声。 △ 其中4个类别的视频帧及相应波形。图像边界颜色与波形上的标记标记一致,表示整个视频中当前帧的位置 之后,研究人员用亚马逊众包平台Mechanical Turk(AMT)清理数据。 每个场景的配音均为一真一假,当场揭晓答案,猜猜你能对几个——

    3K50发布于 2018-04-02
  • 来自专栏CoderJia的工作笔记

    KrillinAI:基于AI大模型的一站式视频翻译配音解决方案

    项目概述 KrillinAI是一款基于AI大模型技术的全流程视频翻译和配音工具,旨在为内容创作者提供从视频下载到最终成品的一站式解决方案。 4. 专业级翻译系统 KrillinAI支持56种语言的翻译,包括英语、中文、俄语、西班牙语、法语等。 系统提供了多种配音选项,默认集成了CosyVoice的语音合成技术,用户还可以上传自己的语音样本进行声音克隆,实现个性化的配音效果。 4、媒体内容快速分发 新闻媒体和内容平台可以利用KrillinAI实现热点内容的快速跨语言转换和分发,提高国际新闻报道的时效性。 AI驱动的智能处理:利用大语言模型进行字幕分段和翻译,质量远超传统基于规则的方法。 开源可定制:作为开源项目,用户可以根据自己的需求进行修改和扩展。

    1.8K10编辑于 2025-04-16
  • 来自专栏三太子敖丙

    多模态视频是剪辑配音,击败GPT-4靠「作弊」?

    Olson表示,谷歌的营销非常巧妙,所以我们真的应该在AI炒作中更加谨慎,保持清醒的头脑和判断力。 打败GPT-4,靠的是「作弊」 另外,谷歌发布的这个表格,显示出Gemini Ultra在大多数标准基准测试中击败了GPT-4。 可是这种比较并不公平。 而且,Gemini Ultra对于GPT-4仅有几个百分点的优势,但是GPT-4,是OpenAI差不多一年前的产品。 ChatGPT等AI大模型因从强大的互联网数据中学习,获得了灵活且强大的泛化能力。 许多人工智能专家认为,要使机器智能取得重大进步,就需要AI系统在物理现实中赋予身体,即「具身」。

    52610编辑于 2023-12-12
  • 来自专栏机器之心

    MIT、IBM联合打造AI配音师:检测动作自动添加音效,视频「无声」胜「有声」

    (1)正确性:生成音乐与视频内容相关;(2)噪音量:生成音乐包含噪音最小;(3)同步性:生成音乐在时间上与视频匹配;(4)综合性:总体质量最佳。 可视化结果 图 4 左侧展示了这一方法预测的 MIDI 和 GT 之间的对比。可以观察到,该方法所预测的 MIDI 与 GT 非常相似。图 4 右侧展示了不同方法生成的声谱图结果。 图 4:可视化结果。 音乐编辑 基于 MIDI 的可解释性和灵活性,可以通过 MIDI 文件轻松地进行音乐编辑,生成不同风格音乐,如图 5 所示。

    1.1K20发布于 2020-08-28
  • 来自专栏新智元

    德国小哥用AI拍大片!GPT-2写台词、StyleGAN做特效、Replica来配音

    ---- 新智元报道 来源:towardsdatascience 编辑:白峰、永上 【新智元导读】最近,国外一个技术极客Alex看了电影《阳光泉水》后深受启发,决定自己用AI来生成一部。 Vlad Alex知道了这些后,激动不已,觉得自己也能让AI来拍一部电影,结果真的成功了。 如何制作自己的AI电影呢? 作为 Amazon AWS ai / ml 服务的一部分,Polly 提供各种语言的大量语音,但是Polly产生的语音更像主持人,并不总是适合虚构的内容。 EmptyRoom为我们展示了机器学习在生成视频方面的巨大潜力,不仅简化了流程,还分享了许多创造性的结果,当灵感枯竭的时候也许AI能带给你一股清泉,一起拥抱人工智能吧! 参考链接: https://towardsdatascience.com/ai-as-a-movie-maker-e5865b99a06c

    1.9K30发布于 2020-06-05
  • 短剧出海翻译中的音画同步难题:AI 配音时长自适应与口型适配技术方案

    做过短剧出海翻译的团队大概都踩过同一个坑:字幕翻译完了,配音也生成了,合到视频里一看:角色嘴已经闭上了,配音还在继续说。或者反过来,角色还在说话,配音已经结束了,画面里剩下一段尴尬的静默。 下面这张图展示了一个典型的音画错位场景——原始中文音频和视频画面完美对齐,但翻译成英语后,由于文本膨胀,每个句段的配音时长都发生了变化,导致整条时间轴逐步偏移。图1:翻译后配音的音画时长错位问题模型。 第二条路线是视频侧适配:用AI直接修改视频中角色的嘴部区域,使其匹配目标语言的配音节奏。 四、工程落地:narrator-ai在时长控制上的实现上面讲的算法思路落到实际工程中,需要一套完整的处理管线来串联各个环节。这里以开源项目NarratorAI的翻译模块为例,说明一下具体的实现方式。 rewrite_prompt=f"""请将以下英文句子改写为更简洁的表达,要求:1.保持原始语义不变2.保持原句的情感基调和语气3.改写后的句子长度控制在{target_min}—{target_max}个字符之间4.

    23310编辑于 2026-04-23
  • 来自专栏新智元

    AI配音版Sora视频刷屏!绝美逼真音效打破「无声电影」,或颠覆万亿美元产业

    语音初创公司ElevenLabs放大招,直接用AI给Sora经典视频完成了配音。网友惊呼离AI完全生成电影又近了一步。 就在今天,AI语音克隆初创公司ElevenLabs给经典的Sora演示视频,完成了绝美的配音。 听过之后,让人简直颅内高潮。 在片尾,ElevenLabs表示,以上所有的配音全部由AI生成,没有一点编辑痕迹。 网友惊呼,「这简直离完全由AI生成电影又近了一步」! 堪称突破后的突破! 同时,公司还宣布推出了一系列新产品,包括声音市场、AI 配音工作室和移动应用等。 自去年1月发布beta版平台以来,ElevenLabs便受到了创作者们的热捧。 2023年3月,流媒体自动化服务Super-Hi-Fi携手ElevenLabs,利用后者的软件和ChatGPT生成的提示词,为其虚拟DJ配音,推出了全自动的「AI Radio」广播服务。

    40910编辑于 2024-02-26
  • 影视解说视频智能生产全链路方案解析:从脚本生成到多平台分发

    :文案 → TTS 合成 → 音频后处理[环节3] 视频剪辑:字幕时间轴 → 镜头匹配 → 视频合成[环节4] 字幕制作:配音时间轴 → 字幕样式 → 字幕烧录[环节5] 多平台分发:格式转码 → 平台参数适配 脚本生成和配音合成已经有成熟的 AI 方案;视频剪辑的自动化程度取决于素材质量;字幕制作高度依赖配音时间轴的精度;多平台分发是目前自动化程度最低、工具碎片化最严重的环节。 四、narrator-ai-cli 接入全链路:脚本生成与配音合成环节的三种集成方式在上述五个环节中,narrator-ai-cli 主要覆盖脚本生成和配音合成两个环节,通过 CLI 接口把这两个环节的 <BASH>只生成解说脚本,输出 JSON 供人工审阅和修改narrator-ai-cli commentary create-script \ --movie-file input.mp4 \ - 直接驱动 CLI:用户:帮我把 input.mp4 做成爆笑喜剧风格的解说,发抖音用Agent:正在提取字幕...文案生成中...配音合成中...✅ 成片已输出:output/movie_解说.mp4

    25210编辑于 2026-04-21
  • 短剧出海翻译工具实测:5款产品对比优缺点

    有主打AI配音的,有主打快速出片的,有主打全流程管控的。到底怎么选?这5款工具我按使用感受分成三类——有的强在配音,有的强在快,有的强在翻译质量可控。没有哪款是完美的,关键看你最在意什么。 一:配音译制路线——"让翻译后的声音听起来像真人"这条路线的核心卖点是AI配音质量。翻译只是其中一环,更重要的是把目标语言的配音做到"听不出是AI配的"——带情感、带语调、能克隆原声、甚至能对口型。 功能覆盖字幕提取、字幕擦除(无痕修复)、翻译、AI配音(支持声音克隆)、视频去重混剪。价格是一大优势——AI翻译配音低至0.2元/分钟,大模型翻译功能免费使用。 4.录咖(RecCloud)——快速翻译路线录咖走的是极简路线——4步完成视频翻译(上传→选语言→翻译→下载),操作界面非常清爽。支持70+种语言,是目前语种覆盖最广的轻量工具之一。 想清楚你要解决的核心问题是配音、速度还是质量管控,答案就很清楚了。#短剧出海#短剧翻译#译制剧#内容本土化#翻译#短剧全球化#AI翻译#多语种翻译#AI配音#开源工具推荐

    21110编辑于 2026-04-28
  • 来自专栏软件安装

    10个GitHub热门的配音语音合成语音克隆项目

    这里推荐几个GitHub上热门、好用的配音/语音合成/语音克隆项目,有通用TTS、语音克隆、视频配音、流式/轻量等不同需求的。 ▌1. OpenVoice(⭐ 34k+) 地址:https://github.com/myshell-ai/OpenVoice 功能: 极速克隆:仅需3秒参考音频 多语言:中英日韩法西,无缝切换 MIT协议: 地址:https://github.com/CorentinJ/Real-Time-Voice-Cloning 功能: 经典实时语音克隆框架,5秒克隆、实时生成 社区成熟、教程多,适合二次开发 ▌ 4. Coqui TTS(⭐ 34k+) 地址:https://github.com/coqui-ai/TTS 功能: 超全语言:支持1100+语言 多模型:YourTTS、VITS、Bark等,兼顾质量与速度 VideoLingo(⭐ 2.5k+) 地址:https://github.com/Huanshere/VideoLingo 功能: Netflix级字幕+配音一体化 支持GPT-SoVITS、Azure

    1.2K10编辑于 2026-03-26
  • AI与科学的双向革命:AI4Science与Science4AI如何重塑未来?

    这不仅是对传统科研体系的颠覆,更宣告 AI与科学融合进入"双向赋能"新阶段 :AI4Science(人工智能加速科学发现)与Science4AI(科学理论反哺AI创新)形成螺旋上升的结构性协同,重塑人类认知世界的方式 https://agents4science.stanford.edu/ 一、AI4Science:当人工智能成为科学发现的"超级引擎" 生物医疗领域:从"十年磨一药"到"数月出成果" 2025年5月, https://seedllm.org.cn/ 二、Science4AI:当物理、数学成为AI创新的"理论引擎" 物理学的馈赠:从自旋系统到神经网络 2024年诺贝尔物理学奖授予霍普菲尔德和辛顿,标志着科学理论对 范式**变革:AI从"执行者"变为"建议者",与科学家形成平等协作关系 独立作者阶段 : 全流程自主研究、多模态知识整合,如斯坦福Agents4Scie nce会议尝试AI作为论文作者 2. 数据与理论的融合:新科研范式的诞生,科学第四范式 《科学智能白皮书2025》指出,AI4Science正推动科研范式从"假设-验证"向" 数据-发现 "转变。

    1.9K10编辑于 2025-08-27
  • AI配音新王者!快手AudioGen-Omni:视频喂给它,歌声语音音效秒出,唇形精准到帧!

    作者:Le Wang等 解读:AI生成未来 文章链接:https://arxiv.org/pdf/2508.00733 项目链接:https://ciyou2.github.io/AudioGen-Omni 可学习的 768 维嵌入被填充到帧预算中,并在填充位置进行掩码,通过最多 4,000 个位置的正弦绝对位置编码增强,并通过尊重填充掩码的 ConvNeXt-V2 块进行细化。 文本编码器:采用基于 Colossal Clean Crawled Corpus (C4) 预训练的 T5-Base作为文本特征提取器。 为确保时序一致性,我们集成了 Synchformer,这是一种基于 Transformer 的视听同步模型,利用嘴唇运动和音素时序等稀疏线索,在无需密集监督的情况下实现精确对齐,适用于视频生成、配音和语音驱动动画等应用

    86810编辑于 2025-08-27
  • 来自专栏open claw 养龙虾专区

    🎬 再也不熬夜剪片!自动生成视频完全指南(新手可复制)

    2026年,AI智能体已经学会了做视频——搜索影片、生成文案、AI配音、自动剪辑、合成视频,全程自动完成。你不需要懂剪辑软件,不需要会配音,甚至不需要找素材。 一套完整的自动化Pipeline包含:视频理解:AI自动分析原始素材内容文案生成:AI根据分析结果撰写解说文案配音剪辑:AI自动配音并完成剪辑整个流程可以通过一行命令或一段自然语言指令打通。 例如:“基于我桌面‘素材’文件夹里的视频片段,生成配音和解说,不要生成新的画面。”坑4:不知道从哪里获取AI视频生成工具建议:从小工具开始。 总结:三步走路线图阶段做什么预期效果第1天打开剪映,试一下AI故事成片体验“一句话生成视频”第2-3天安装AI解说大师Skill(QClaw/WorkBuddy)实现“一句话出电影解说”第4-7天配置WorkBuddy 点击生成,看到画面和配音自动出现的那一刻,你就已经迈出了“再也不熬夜剪片”的第一步。本文基于截至2026年4月的公开信息整理。各工具仍在快速迭代中,具体功能请以实际版本为准。

    61100编辑于 2026-04-21
  • 2026年如何配音?一个开发者的自白:本想自己写TTS,试完这3款我放弃了

    每天免费额度:登录送免费时长,我每周3-4条视频,基本没花过钱。偶尔长视频用超了,签到攒两天就够了。缺点:部分超拟真音色需要付费(但我用不上)。网页版偶尔慢,切小程序就好。 后来我发现,可以用AI克隆我的声音——既保留个人标识,又不用反复录音。媒小三配音这个功能是真的强。实测体验:5-10秒录音:对着手机念一句“大家好,我是XX,欢迎来到我的频道”。 还原度极高:我拿自己录的原声和克隆出的合成音频混在一起让朋友分辨,4个人里有3个没分出来。连我说话时轻微的鼻音都学去了。技术背书:跟阿里达摩院合作,中文发音准确性和稳定性明显高过同类产品。 会员全包:一个会员=声音克隆+AI配音+AI写作+文案提取+爆文标题+短视频脚本模板。比我单买各种工具便宜太多。每日免费试用:不想买会员?每天也有免费额度体验克隆功能。 我的完整工作流(2026版)现在我做一套技术教程的配音流程是这样的:写稿:配朵朵的AI写作辅助我快速搭建大纲,或者我写完后用它润色。

    22710编辑于 2026-04-28
  • 来自专栏软件安装

    国产VS海外:12款国产AI视频工具横向对比实测,感觉国产没想的这么差

    核心功能: ① AI自动生成视频 操作流程极其简单:输入文案 → 选择配音音色 → 一键生成视频。系统会自动匹配画面素材、生成字幕、添加配音。 腾讯智音:大厂出品的AI创作工具 腾讯智音是腾讯推出的AI智能创作工具,拥有AI数字人、AI文字配音、文章转视频等多项AIGC能力。 ② 文本配音 输入文本 → 选择音色 → 自动配音,操作简单,很多音色免费使用。 ③ 文章转视频 输入文本 → 设置成片类型、视频比例、背景音乐、朗读音色 → 一键AI创作。 优点: 腾讯大厂背书,稳定性好 文本配音质量高 2D/3D数字人可选 缺点: 创新功能较少 部分高级功能需付费 适用场景: 企业培训、知识讲解、新闻播报 4. 核心功能: ① 文生视频 使用方法:打开text to video → 输入prompt → 默认生成4秒视频。

    3.7K10编辑于 2026-03-26
  • 配音工具技术选型:从轻量小程序到高保真TTS API的最佳实践

    2026年,AI配音市场的生态已经形成明显分层:对于开发者来说,如何根据具体场景配置好一套配音方案,已经从“有没有”进化到“如何最大化投入产出比”的阶段。 如果你需要将配音能力嵌入自动化工作流,那么配朵朵只能作为前端人工操作入口,后台需要对接第三方TTSAPI。免费额度:基础配音每日免费,AI写作和视频转文字也有免费额度,无弹窗强制收费。 免费额度:每日免费配音额度;会员全包(配音、克隆、AI写作、文案提取),性价比较高。适用人群:自媒博主、短剧解说、小说推文、打造个人IP、需要多角色配音、追求从文案到配音一站式的创作者。 四、开源TTS项目:数据私有着重考虑(2026年更新)除了上述方案,以及VoiceBox、VoxCPM2等轻量工具,今年4月美团还开源了LongCat-AudioDiT——直接在波形潜空间做扩散生成,从根部减少音色失真 如果你是开发者,要把配音能力集成到AI应用中:优先考虑Azure、火山引擎TTS或FishAudio等提供API的云服务。

    28910编辑于 2026-04-28
领券