首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏全栈之路

    游戏优化音频压缩

    其实这个比较容易忽略掉,但是音频资源如果不压缩的话,可能会造成游戏加载速度慢,尤其是对于一些音频资源依赖较高的游戏。 来看一下效果: ? 好了,其实这里要介绍的是一条命令,它依赖于ffmpeg。 具体如下: ffmpeg -i ${f} -vn -ar 22050 -ac 1 -ab 128 -f mp3 ${dst} 其中$f为源文件,$dst为目标文件 接下来介绍一下mac上的音频压缩脚本, ~" 用法,格式将输出为mp3格式: audio.sh -s <音频源目录> -d <音频资源目录>

    1.6K30发布于 2018-10-19
  • AI处理文字、图片、PPT、音频、视频

    AI技术快速发展的今天,各类大模型与智能工具层出不穷,其能力各有侧重,都在不断迭代更新。选择工具的关键,在于明确自己的核心需求场景。 AI 创作工具,擅长短视频与图文创意生成;风格贴合抖音生态,支持快速出片,免费版有功能限制内容创作悠船专注于内容创作辅助,支持文案生成、创意构思、内容优化;适配自媒体、营销场景,操作便捷,部分功能需付费智能体开发 15.可灵快手旗下轻量型 AI 创作工具,支持文生图、图生图,风格适配短视频传播;操作简单,免费基础功能满足日常创作需求。 16.即梦字节系 AI 创作工具,擅长短视频与图文创意生成;风格贴合抖音生态,支持快速出片,免费版有功能限制。 17.扣子(Coze)低代码搭建专属 AI 智能体,无需深厚编程基础;内置丰富插件与知识库,支持自定义对话流程;因为没有数据库,数据是直接写死的。总结而言,AI工具的选择并非“一刀切”。

    52310编辑于 2026-01-12
  • 来自专栏音视频技术

    音频正当时:我们和声网音频专家聊了聊AI、元宇宙、空间音频和“沉浸感”

    近日,LiveVideoStack采访到了声网的音频算法负责人冯建元,请他来跟大家聊聊音频相对于视频的优势、音频在元宇宙中的应用、国内音频技术与AI结合的发展、过去一年声网在音频领域所取得突破和对前沿音频技术的探索 我关注的音频领域还是比较多的,从基于AI的语音编解码器、空间音频到声纹变声等都有在关注和尝试。 LiveVideoStack: 目前AI音频技术的结合已经成为一种趋势,比如AI技术常用于音频降噪、回声消除和音频特效等。除此之外,AI音频的技术结合还有哪些新的探索? 实时变声,甚至空间音频中的个性化HRTF都可以用AI模型生成,可以说AI几乎已经融入到了音频的每一个角落。 冯建元:我觉得国内在AI音频技术结合上已经是国际第一流的水平,尤其在严肃、传统的3A处理领域。在音乐、AI Codec等比较新的领域,我们则可能处于平分秋色或者在前沿探索方面略显滞后。

    77020编辑于 2022-04-19
  • 来自专栏猫头虎AI技术分享

    快速上手 AIAI 视频与音频生成教程

    快速上手 AIAI 视频与音频生成教程 摘要:随着生成式AI的爆发式发展,音视频创作已经从“专业技能”转变为“人人可用”的智能工具。 无论你是开发者、内容创作者,还是新媒体运营者,通过AI生成视频和音频,都能显著提升效率与创意质量。 本文将从==AI音频生成、AI视频生成、工具对比、应用实例==四大方向带你快速上手,并附带一键上手代码与流程图可视化讲解。 AI音频:支持多语言、多音色的语音克隆、音乐生成、背景音合成等。 音频生成快速上手 1.

    4K351编辑于 2025-10-06
  • 来自专栏量子位

    只有音频没指纹,能抓对人吗?CMU音频分析AI说没问题

    然鹅,现在有了AI音频分析技术已经到了前所未有的高度。 Rita Singh,是这一领域的顶尖科学家,工作于卡内基·梅隆大学的语言技术研究所。 Singh和她卡耐基梅隆的同事所研发的这套音频分析技术,可以找出人都听不出来的细微差别。 她们可以把音频切成毫秒的片段,然后用AI技术来梳理处理这些片段以寻找独特的标识。 当你说话的时候,AI可以猜出你所在房间的大小,房间是否有窗户,墙体是什么材质的。 更不可思议的是,AI还可以根据当地电网的电压波动,判断出打电话的人的物理位置,以及是一天当中什么时间段打出的电话。 AI技术的引入,对于那些总是爱报假警的人来说是个坏消息。要知道,在美国报假警触犯了联邦法律,处罚很重而且还要进去蹲好几年。 Singh的技术大大减少了这类事件的发生,还快速准确地锁定了罪犯。 AI技术的发展速度都是指数级别的,可以预见到未来,音频分析将会用于法律定罪以外的领域。

    82090发布于 2018-03-22
  • 来自专栏刘旷专栏

    在线音频江湖:内容大战、场景之争、AI博弈

    智能手机、AI音箱、车联网全面普及,多个场景下用户对音频内容的需求逐渐增加,拓宽了在线音频平台商业化空间。 而此刻,技术再次升级、音频与娱乐产业的融合、应用场景全覆盖,将推动在线音频行业更上一台阶。 首先,AI助力在线音频广联万物。 其次,AI助力音频内容的生产提速提质。 再有,AI助力在线音频平台降本增效。2022年,互联网行业的关键词是降本增效,除了减少营销和行政等开支之外,还要归功于利用 AI工具或AI系统提高了企业运营和管理效率,在线音频行业也不例外。 综上所述,新的技术升级周期给在线音频平台带来新的机遇,荔枝押注AI聊天、喜马拉雅关注AIGC、蜻蜓FM坚持“AI+音频”,头部在线音频平台已经率先行动,群雄纷起争上游,音频行业下一个黄金发展期值得期待。

    53410编辑于 2023-03-23
  • 来自专栏量子位

    不识字也能翻译:谷歌AI直接用音频音频,不用先转文本

    AI在翻译语音的时候,不把西语的音频转成文本,也不生成任何英语的文本,直接产出了英文音频。和标答一字不差。 这是谷歌团队的最新成果,想法大胆而有效。 ? AI只要从大量的成对数据里,学懂英文和西语的声谱映射关系,就算不识别人类说的是什么字,依然能当上翻译员。 就是下图的蓝色部分,它负责生成目标声谱图,这只是第一步,还不是音频; 二是一个声码器(Vocoder) 。 借助转换文本来翻译的AI,缺了个“do”字: ? 第三题,带从句的句子。“我的表 (堂) 兄弟姐妹们小的时候,我照顾过他们也教过他们,有过一些这样的经历。” 肉眼看过之后,再让S2ST和先转换文本再翻译的AI对比一下BLEU分。 在“Conversational”大数据集上,S2ST的BLEU分比对手差了6分:42.7比48.7。 ?

    2.1K20发布于 2019-04-22
  • 来自专栏人人都是极客

    (干货)Ai音箱和Linux音频驱动小谈

    蓝色代表模拟音频信号,红色的点代表采样得到的量化数值。采样频率越高,红色的间隔就越密集,记录这一段音频信号所用的数据量就越大,同时音频质量也就越高。 个数据线,这时候计算的时候ch还是用2来计算 BCLK = 16K x 32bitsx2ch = 1.024M 注意:我们在使用CX20810 ADC芯片的时候,CX20810现在是市面上做AI 音频跟视频很不一样,视频每一帧就是一张图像,而从上面的正玄波可以看出,音频数据是流式的,本身没有明确的一帧帧的概念,在实际的应用中,为了音频算法处理/传输的方便,一般约定俗成取2.5ms~60ms为单位的数据量为一帧音频 七、AI智能音响核心点 这部分讲的没一点内容都是非常核心的,直接影响到AI音箱的整体效果,包括声源定位,回声消除,有很多人反馈为什么我的音箱声源定位不好,为什么我的回声消除效果很差,我们就要从下面几个问题点去排查 内部音腔隔离 震动隔离 喇叭与MIC的相对位置; 3、硬件选型方面需要注意; 4、整个采样系统中的延时要稳定; 彩蛋: •ASR(automaticspeech recognition)把语音转换成文字,AI

    4.7K21发布于 2019-11-20
  • 来自专栏Dance with GenAI

    AI办公自动化:多音频轨电影视频抽取出英语音频

    很多电影视频是有中、英、粤语等多个音频轨的,如果直接转换成音频,很有可能不是自己想要的那种语音。 可以先查看音频流信息,确定属于哪个音频轨: Reading video file: E:\1-7\比得兔1.mp4 输出音频流信息 Available audio streams: Stream 0: aac Stream 0应该是英语; 然后,在Deepseek中输入提示词: 你是一个Python编程专家,写一个Python脚本: 读取视频:"E:\1-7\比得兔1.mp4" 这个Mp4视频有多个音频轨 ,选择其中的Stream 0音频轨,提取出来保存为mp3音频文件,保存在和视频同一个文件夹中。 print(f"Selected audio stream: Stream {stream_index} - {selected_stream['codec_name']}") # 构建输出音频文件路径

    37210编辑于 2024-06-25
  • AI 音频转视频秘籍:从原理到实践

    在当今数字化时代,AI 技术正以前所未有的速度改变着我们创作和分享内容的方式。其中,AI 音频转视频技术为创作者们提供了一个全新的维度,使得将单纯的音频内容转化为富有视觉吸引力的视频变得轻而易举。 一、AI 音频转视频的原理剖析​AI 音频转视频并非魔法,其背后有着严谨的技术逻辑。当输入一段音频时,AI 系统首先会对音频进行全面分析。这包括解析音频的节奏、旋律、和声、音色等多个维度的特征 。 三、AI 音频转视频的操作步骤详解​(一)准备阶段​音频素材处理​格式转换:确保你的音频素材格式符合所选 AI 工具的要求。常见的音频格式如 MP3、WAV、M4A 等,大多数工具都能支持。 剪辑与优化:使用音频编辑软件(如 Audacity,一款免费开源的音频编辑工具)对音频进行必要的剪辑,去除开头和结尾不必要的空白部分,使音频内容更加紧凑。 字幕添加与优化​自动生成字幕:利用视频编辑软件的自动字幕生成功能(如剪映的智能字幕功能,Descript 的自动转录生成字幕功能),为视频添加字幕。

    1.6K00编辑于 2025-08-07
  • 来自专栏破晓

    AI音频处理】:重塑声音世界的无限可能

    例如,利用AI进行自动混音、降噪、回声消除等操作,可以大大提升音频的质量和专业度。此外,AI还可以根据用户的需求自动调整音频的音量、音调等参数,实现一键式的声音美化。 五、AI音频分析中的深度应用 情感识别 音频分析不仅仅是关于声音的物理特性,还涉及到声音背后的情感表达。 七、AI音频处理中的挑战与未来 技术挑战 尽管AI音频处理领域取得了显著进展,但仍面临诸多技术挑战。 这些挑战需要研究者们不断探索和创新,以推动AI音频处理领域的进一步发展。 未来展望 随着技术的不断进步和应用场景的不断拓展,AI音频处理领域的未来充满了无限可能。 我们可以预见,未来的AI将更加智能地理解和处理音频信息,为我们提供更加个性化、智能化的音频服务。同时,AI也将与其他技术如虚拟现实、增强现实等相结合,为我们带来更加沉浸式的音频体验。

    1.4K10编辑于 2024-09-02
  • 来自专栏韩曙亮的移动开发专栏

    【Android 高性能音频】AAudio 音频音频设备 相关配置 ( 音频设备ID | 音频流方向 | 音频设备共享模式 )

    AAudio 音频流创建流程 II . AAudio 音频流构建器 设置音频设备 ID AAudioStreamBuilder_setDeviceId III . AAudio 音频设备 ID 获取 IV . AAudio 音频流 默认 音频设备设置 V . AAudio 音频流构建器 设置 音频流方向 AAudioStreamBuilder_setDirection VI . AAudio 音频流方向 VII . 作为音频设备 ID ; ② 默认设备 : 如果设置了该参数 , 系统会默认使用 Android 手机当前音频流的默认音频设备 ; ③ 举例 : 如果当前音频流方向是输出 , 从内存 -> 音频设备 , 独占访问 : 只有该音频流能访问该音频设备 , 其它音频流拒绝访问 ; b . 高性能 : 该模式下 音频流 性能高 , 延迟低 ; c .

    3.1K20编辑于 2023-03-27
  • 来自专栏腾讯多媒体实验室

    腾讯天籁AI音频技术“破圈”背后的“密码”

    基于领先的腾讯天籁音频解决方案,腾讯天籁不仅可以让不同地点、场景、设备终端同时远程接入,让远程线上沟通更加高效,并且还扩展了实时音频的语音带宽。 与传统PSTN电话音质相比,使用了腾讯天籁技术后的音频音质更加明亮、干净。同时,整套音频算法能力也进行了有针对性的优化,可以在用户多种客户端进行部署,最终提升了音频通信的可懂度、自然度、舒适度。 此外,在技术的研发过程中,该体系的测试结果,可以给研究人员提供非常重要参考信息,用于方案的打磨和优化。 ?   通过多种技术的优化和整合,实现了语音清晰度和可懂度提升40%的效果。经过提升后的信号,传递给人工耳蜗后,可以极大改善听障人士的听觉体验,让听障人士在“听得见”的基础上“听得清、听得真”。     9月27日国际聋人日之际,腾讯多媒体实验室联合腾讯公益慈善基金会、深圳市信息无障碍研究会等机构召开发布会,宣布发起“天籁行动”,通过面向公益开发者、设备厂商、NGO及行业免费开放腾讯天籁AI音频技术,帮助听障人群解决

    1.2K50发布于 2020-11-03
  • 来自专栏Dance with GenAI

    AI批量下载网页中的mp3音频

    这个网页中有多个mp3音频 https://www.barefootbooks.com/talesofmystery 查看源代码,找到mp3文件: https://barefootbooks-media-raw.s3 www.barefootbooks.com/talesofmystery 定位源代码中所有audio标签,然后定位其中的<source >标签,提取其src属性,这是MP3下载链接; 下载所有的mp3音频 保存到文件夹:F:\aivideo 注意:每一步都要输出信息到屏幕上 要完成这个任务,我们可以使用Python的requests库来下载网页内容,使用BeautifulSoup库来解析HTML并提取所需的音频链接

    83510编辑于 2025-01-19
  • 来自专栏韩曙亮的移动开发专栏

    音频处理】Melodyne 导入音频 ( 使用 Adobe Audition 录制音频 | 在 Melodyne 中打开录制的音频 | Melodyne 对音频素材的操作 | 音频分析算法 )

    文章目录 一、使用 Adobe Audition 录制音频 二、在 Melodyne 中打开录制的音频 三、Melodyne 对音频素材的操作 四、Melodyne 音频分析算法 一、使用 Adobe Audition 录制音频 ---- 参考 【音频处理】使用 Adobe Audition 录制电脑内部声音 ( 启用电脑立体声混音 | Adobe Audition 中设置音频设备 | Adobe Audition 内录 ) 博客进行内录 ; 二、在 Melodyne 中打开录制的音频 ---- 将上述录制完毕的音频直接拖动到 Melodyne 软件的空白处 , 可以自动打开该音频 , 同时自动分析该音频的音高 ---- 音频分析算法 : 在 Melodyne 菜单 " 定义 " 下 , 可以设置 旋律模式 , 打击模式 , 复调模式 , 等运算法则 ; 录入音频时 , Melodyne 会自动选择正确的算法 , 如果选择的算法不对 , 可以随时在此处更改音频分析算法 ; 选择 " 重置检测到打击模式 " , 所有的音符都会被设置到相同的音高 ;

    10K40编辑于 2023-03-29
  • 来自专栏韩曙亮的移动开发专栏

    【Android 高性能音频】AAudio 音频库 简介 ( AAudio 音频库简介 | 音频流 | 音频设备 | 共享模式 | 数据模式 )

    AAudio 音频库 简介 II . AAudio 音频流 三要素 ( 设备 | 共享模式 | 数据格式 ) III . AAudio 音频设备 IV . AAudio 音频设备获取 V . 是轻量级的音频库 , 只提供写入音频流进行发音的功能 , 不负责音频设备管理 , 文件 I / O , 音频编解码 等操作 ; II . AAudio 音频设备 ---- AAudio 音频流与音频设备对应关系 : 每个 AAudio 音频流都需要 与一个音频设备进行关联 , 才能发挥正常作用 ; 音频设备 : ① 真实硬件音频设备 : 音频流时 , Android 会检查该音频流方向 与 音频设备的音频流方向是否一致 ; VII . ; ① 独占模式 : 该模式下 , 音频流 独占 音频设备 , 此时其它音频流无法访问该 音频设备 ; ② 混合模式 : 该模式下 , 允许 AAudio 音频流 与 其它音频流 混合 , 音频设备播放多个流混合后的采样

    3.3K20编辑于 2023-03-27
  • 来自专栏深度学习|机器学习|歌声合成|语音合成

    音频特征建模:音频特征提取

    假设音频信号在短时间范围内变化不大(当我们说它不变时,我们指的是统计上的,即统计上是平稳的,显然样本在不断变化。即使是短时间尺度)。这就是为什么我们将信号分成20-40ms帧的原因。

    1.8K30发布于 2021-01-14
  • 来自专栏韩曙亮的移动开发专栏

    【SeeMusic】音频编辑 ( 进入音频编辑页面 | 音频延迟设置 )

    SeeMusic 系列文章目录 【SeeMusic】下载安装并注册 SeeMusic 软件 【SeeMusic】创建 SeeMusic 工程并编辑相关内容 ( 创建工程 | 导入 MIDI 文件 | 导入音频 Y 坐标 | 视频旋转 | 视频扭曲 ) 【SeeMusic】视频编辑 ( 顶部裁剪 | 底部裁剪 | 左侧裁剪 | 右侧裁剪 | 明亮度 | 对比度 | 色调 | 饱和度 ) 【SeeMusic】音频编辑 ( 进入音频编辑页面 | 音频延迟设置 ) ---- 文章目录 SeeMusic 系列文章目录 一、视频裁剪相关设置 二、音频延迟设置 一、视频裁剪相关设置 ---- 点击 按钮 , 进入编辑页面 , 在编辑页面 , 点击 音频设置按钮 , 进入音频设置界面 ; 二、音频延迟设置 ---- 音频延迟设置 : 单位 秒 , 取值范围 -25 ~ +25 ; 设置为 -25 , 表示音频提前 25 秒播放 , 也就是砍掉前 25 秒 , 从第 25 秒位置开始播放 ; 设置为 +25 , 表示音频滞后 25 秒播放 ;

    1.5K30编辑于 2023-03-29
  • 来自专栏用户8715145的专栏

    音频审核成功怎么添加音频音频审核的意义是什么?

    现如今手机应用上非常流行的短视频平台以及音频平台种类非常多。这些平台可以让用户自由的上传自己的短视频作品以及音频录制作品。 然而正是因为这些软件的流量用户特别多,所以现在有关部门对于视频和音频的安全审核也越来越严格。所有用户上传的视频和音频都会先通过审核才能够正式上线,音频审核成功怎么添加音频呢? 音频审核成功怎么添加音频音频审核成功怎么添加音频呢?大家平时在短视频网站或者是听书网站上上传了音频之后,往往会先经过网站的审核。 在没有审核通过之前,别人是无法收听到自己所上传的音频,审核成功之后,音频就可以在线上收听了。如果想要继续添加音频的话,就可以重新建立作品,或者是删除已经上传的作品,再重新上传。 音频审核的意义是什么? 音频审核在许多的视频网站和音频软件当中都非常的常用,音频审核的目的是为了筛选以及审核上传的音频当中是否有违禁语音或者是违禁词汇。

    2K20编辑于 2021-12-31
  • 来自专栏用户8528729的专栏

    语音社交系统音频传输流程,功能模块的技术优化

    礼物打赏等,在用户信息交互时涉及到语音信息的实时性和互动,多以在技术实现上大多会使用IM功能来实现,在高并发场景下,聊天室内的弹幕信息量非常大,为了缓解服务器的压力,语音社交系统在开发时也会做出一些必要的优化 编码:由于语音社交系统采集到的原始音频体积非常大,所以要经过音频编码压缩技术将音频数据进行处理,一般会采用ACC编码格式,像MP3、WMA也是可选方案。通过音频编码压缩提高音频存储和传输的效率。 解码:语音社交系统的解码其实就是编码的逆过程,是将在封装的音频数据中提取原始音频数据,也就是将音频数据恢复成可供声卡直接播放的音频数据。 5. 在理解了整个语音社交系统中音频传输过程后,再看语音连麦、聊天室等交互性比较强的功能,就能有更准确的认识,为了保证语音社交系统的稳定性,提高用户的体验感,在开发时针对交互性强的功能都做了哪些优化呢? 其实在整个语音社交系统中还会涉及到很多技术细节,随着时代的发展,改进优化是必然之路。 声明:本文由云豹科技原创,转载请注明作者名及原文链接,否则视为侵权

    91840发布于 2021-04-19
领券