首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏关键帧Keyframe

    声音的表示(3):作为音视频开发,你真的了解声音吗?丨音视频基础

    声音的数字化过程是将模拟信号(连续时间信号)转化为数字信号(离散时间信号)的过程,包括 3 个步骤: 采样:以一定采样率在时域内获取离散信号。 量化:每个采样点幅度的数字化表示。 :最早的数字录音由一台录像机加上一部 PCM 编码器制作的,由于当时使用的是 PAL 录像制式(帕制,与之对应的有 NTSC),场频 50 Hz,可用扫描线数 294 条,一条视频扫描线的磁迹中记录 3 3)声道 声道是指声音在录制或播放时在不同空间位置采集或回放的相互独立的音频信号,所以声道数也就是声音录制时的音源数量或回放时相应的扬声器数量。 单声道(Mono):是以单个声道来重现声音。 最早应用于早期的电影院,如杜比 AC-3。 7.1 声道:在 5.1 声道的基础上,把左右的环绕声道拆分为左右环绕声道以及左右后置声道。主要应用于蓝光以及现代的电影院。 5、数字音频数据是什么? 本文参考 1)音高 https://bideyuanli.com/p/3673 2)音符 https://zh.wikipedia.org/wiki/%E9%9F%B3%E7%AC%A6 3)如何理解声强级和声压级

    1.7K10编辑于 2022-06-13
  • 【教程】免费 AIGCPanel➕CosyVoice 声音合成和声音克隆

    AIGCPanel和CosyVoice介绍AIGCPanel是一个功能强大的开源数字人软件,提供直观的用户界面,让用户能够轻松管理和使用各种声音AI模型和视频AI模型。 进入 AIGCPanel 的模型,点击右上角选择导入模型导入完成后,点击启动,等待模型启动完成声音克隆进入我的音色界面,上传被克隆的声音,注意声音保留5-10秒即可,太长的声音反而效果不好。 进入声音克隆界面,选择 CosyVoice 模型,选择被克隆的音色,输入克隆文字,点击提交。等待克隆完成,这时候就可以看到声音克隆的结果,直接点击可以播放。 声音合成进入声音合成界面,选择 CosyVoice 模型,选择需要合成音色,输入合成文字,点击提交。等待合成完成,这时候就可以看到声音合成的结果,直接点击可以播放。

    1.1K10编辑于 2025-07-18
  • 来自专栏MixLab科技+设计实验室

    声音,无限可能

    声音和其他模态信息的关联度,或者互动,真的非常有意思~~ @知识库 shadow 知识库 来啦~~ 我们先从声音与健康说起~~ 国际期刊《柳叶刀》有一篇《通过你的声音能诊断疾病吗?》 关键技术是AI识别和处理人类的各种声音模式,包括音高、音调、节奏,呼吸轻缓、咳嗽等。这将极大改善医疗健康的服务模式,但在实践中仍需大量的数据验证。 VoiceWise 准确率高达95% 第一性原理:如果器官生病了,人的声音就会发生改变。 罗马Tor Vergata大学教授Giovanni Saggio开发了VoiceWise,该系统分析用户的声音,通过AI将6300个声音值与某些病理状态的声音值进行比较,从而诊断所患的病理。 有代码…… DeepSlayerXL 这是一个音乐专辑,基于Transformer-XL语言模型,学习了3604首俄罗斯MIDI歌曲的特征,自动生成金属音乐,除了音乐本身,作者还使用了GPT-3来生成各种各样的点评

    1.9K20发布于 2021-09-18
  • 来自专栏Helloted

    开发之声音

    部分代码位置Github-VoiceDemo Pre 与图片中默认的格式为PNG格式一样,iOS开发中声音的格式也有默认格式,为wav格式,本文中的产生的格式均为wav格式,其他格式则需要转换。 有第三方的框架,进行转换成amr等格式 一、声音录制 要先引入AVFoundation的框架 #import <AVFoundation/AVFoundation.h> self.voiceRecorder ,Path和Setting Path:声音文件录制后存储的路径 Setting:一个录制参数的字典,设置一些录制的必要的参数,需要进行调整到合适的值 _recorderSetting = AVAudioRecorder在录制的时候可以暂停和恢复 暂停 - (void)pause; /* pause recording */ 恢复/开始 - (void)record; 录制完成 - (void)stop; 二、声音播放 注意:如果在播上一段录音,同时再点播放的话,两个声音会一起播放 if (_player) { // 如果正在播放上一段录音,则停止 [_player stop]; }

    1.5K10编辑于 2022-06-07
  • 来自专栏linux运维

    系统声音问题:系统声音设置错误,影响使用

    测试音频输出播放测试声音,确保音频设备正常工作。# 播放双声道测试声音speaker-test -c 2 -t wav如果没有声音输出,请检查音量设置或音频服务状态。3. 排查常见问题根据现象排查常见问题:无声音:检查是否选择了正确的输出设备,或是否有其他程序占用音频设备。音量异常:调整音量设置,确保未静音。爆音或杂音:尝试降低音量或更换音频线缆。9.

    1.5K10编辑于 2025-02-09
  • 来自专栏全栈程序员必看

    MacBook 屏幕录制 soundflower 只录内屏声音 无外界声音

    自带的QuickTimePlayer录制屏幕的时候(或者按快捷键⇧+⌘+5),只有三个选项: 1)无声音 2)选外置扬声器。 电脑外放,确实能录到内屏声音,但是扬声器收录的人声、环境音也会录进来 3)插耳机后,可以选择耳机。 这里的“聚集设备”是输入,录屏时候想录入哪些声音,这里就选择相应的设备。“多输出设备”用于在录屏时候的自己想听到哪些声音,二者搭配使用(2ch搭配2ch,64ch搭配64ch)。 选择聚集设备和多输出设备后,不能调音量,要在使用电脑扬声器或者耳机的时候就把音量调好 只录制内屏声音(电脑发出的声音),不录制外屏声音(电脑麦克风或者耳机麦克风的收音),且录制的时候听不见内屏声音(不适用于我 :点小喇叭 选择soundflower(2ch)/soundflower(64ch) 只录制内屏声音,不录制外屏,且录制的时候能听见内屏声音(上网课录屏适用): 录制选择:option ->

    3.6K10编辑于 2022-08-15
  • 来自专栏码上就说

    关于声音采集和声音处理的一些建议

    相机录制的过程除了采集画面,还有采集音频数据的过程,我们今天就主要介绍一下声音采集的过程以及采集的声音是怎么处理的。 声音采集 声音采集是系统提供的接口采集环境声,AudioRecord就是Android平台上提供的采集声音的系统API。 在采集声音之前,需要设置声音的采样率和声道数,通常情况下采样率是44100Hz,声道数是2。 采用回来的声音是short数组。 我们知道声音有两个重要的属性:sample_rate(采样率)和channel(采样频道),声音的标准化就通过这两个决定,当我们编码和播放解码出来的音频数据时,就需要将声音的两个属性标准化一下,使得处理之后的音频能够正常的编码或者播放

    2K20编辑于 2022-05-25
  • 来自专栏技术人生黄勇

    开源语音 AI:3 秒克隆声音,支持 9 种语言 — Voxtral TTS

    3 秒的片段,缺少让声音有辨识度的那些特定语调,听起来像"可能是任何人"。 换成 8 秒的片段,差别就很明显:口音、节奏,以及问句末尾的轻微上扬,这些都能被捕捉到。 给一段法语语音参考,然后输入德语文本,模型倾向于生成听起来像那位法语说话者的德语语音,保留了大量口音和声音特征。 这不是训练的功能,但实际挺好用,尤其是语音翻译场景里需要保留原说话者声音的时候。 如果要克隆自定义声音,必须调 Mistral 的云 API。 多语言 Realtime 实时流 Voxtral Mini 4B Realtime 流式音频,超低延迟,vLLM Realtime API TTS(文字转语音) Voxtral TTS 4B 9语言,3声音克隆 私有云 + Forge 企业品牌声音一致性 会议实时转写+播报 Transcribe 2(30min 长音频) 本地 vLLM 服务 会议记录、字幕生成 企业品牌声音 3声音克隆 + TTS Forge

    27310编辑于 2026-04-09
  • 来自专栏全栈程序员必看

    OGEngine教程:声音载入

    以下介绍声音资源从载入到播放的一个流程 首先,我们将须要的音频文件放到assets文件夹下,OGE中SoundRes和MusicRes为我们封装了非常多经常使用的方法,能够用于载入及播放等经常使用功能 载入 //设置声音读取路径 Device.getDevice().getSoundFactory().setAssetBasePath(“mfx/”); SoundRes.loadSoundFromAssets (SOUND_DIE, “mfx_die.mp3”); //设置音乐读取路径 Device.getDevice().getMusicFactory().setAssetBasePath(“mfx”); MusicRes.loadMusicFromAssets(GAME_BG, “game_bg.mp3”); 播放 SoundRes.playSound(SOUND_DIE); MusicRes.playMusic

    1.7K30编辑于 2022-07-13
  • 来自专栏KT148A

    KT148A语音芯片的声音小,如何让喇叭声音变大?声音影响注意点

    客户反馈他们的产品,声音小,提供的信息如下:喇叭参数是8欧姆1W ,包括外壳的出音孔客户声音小是必然的,原因如下:喇叭的尺寸太小了,并且这个选用的喇叭肯定是“薄膜型”的喇叭外壳的发音孔是不对的,太少了这个的声音 ,估计只有手机外放声音的40%左右。 跟KT148A本身的驱动力,是没有任何关系的,哪怕增加功放,声音都大不了,反而容易烧喇叭解决的办法也没有太多,只能从喇叭和腔体两个方面去选择选择稍微尺寸大一点的喇叭,尽可能大一点,尽量选择“纸盆”结构的喇叭外壳的腔体 ,要多的出音孔==》这个我们资料包也有详细的文档描述,路径如下:这里我们多增加一些关于产品的图片示例供您参考一般玩具,声音挺大的,他们选择的喇叭如下:一般外壳的出音孔设计如下:总之:声音的大小是一个系统的工作 ,KT148A本身驱动声音的能力是很大的,达到200mA,通过电流也可以看出来。

    46400编辑于 2025-01-09
  • 来自专栏python3

    python 播放声音

    ("tkzc.wav") pygame.mixer.music.play() print("播放音乐2") track1=pygame.mixer.music.load("xx.mp3" ) pygame.mixer.music.play() print("播放音乐3") track2=pygame.mixer.Sound("tkzc.wav") track2.play '/path/to/file.wav', block = False) import os os.popen2("cvlc /home/maulo/selfProject/task.mp3 17/playing-a-sound-with-python.html Pyglet import pyglet sound = pyglet.media.load('mysound.mp3' install playsound from playsound import playsound playsound('/path/to/a/sound/file/you/want/to/play.mp3'

    1.6K20发布于 2020-01-08
  • 来自专栏达摩兵的技术空间

    聆听心灵的声音

    3 亲和力?气场? 这些都和素养,人际交往,性格,习惯等若干关联。有些外向,声音好听,见多识广,会说话,善于微笑的人。

    1.2K20发布于 2018-08-28
  • 来自专栏疯狂学习GIS

    让电脑播放手机的声音:不影响电脑自身声音

      本文介绍在Windows系统的电脑中,基于免费的Bluetooth Audio Receiver软件,实现用电脑播放手机声音,且与电脑自身声音不冲突同时播放的方法。    最近,需要将手机的声音投放至电脑播放,且希望电脑与手机的声音可以实现不冲突的同时播放——即二者不会出现“一个播放,另一个就要被自动暂停”的此消彼长的情况。 现在用手机开启音乐、视频等声音,就可以由电脑来播放啦;同时电脑还可以播放别的声音,做到二者互不冲突。如果出现声音比较小的情况,可以调整手机音量或电脑音量。

    5.6K10编辑于 2024-08-05
  • 来自专栏WeTest质量开放平台团队的专栏

    WeTest功能优化第3期:业内首创,有声音的云真机

    原文链接:https://wetest.qq.com/lab/view/419.html 第3期功能优化目录 【云真机远程调试】音频同步传输实现测试有声 【兼容性测试报告】新增视频助力动态定位问题 【云真机远程调试 重点来了,不仅是WeTest助手,而且通过PC端登录WeTest官网也能远程云真机听到声音,能够实时实现视频流,还能够同步传输声音,实现测试有声啦。欢迎大家前往体验哦! [PIC1.png] 选择音频云真机 - 云真机启动手游/应用后,手游/应用自带的声音会同步传输至本地手机,用户能够在本地手机上同步接收声音。更炫酷的是,本地手机音量调节功能,也可以同步传输云真机。 3、远程调试菜单栏优化调整,选择一目了然 WeTest收到用户吐槽,“云真机菜单栏有点混乱……筛选目标机型很费劲啊。 [PIC 3.png] 远程调试菜单栏 - 首先,我们提炼了菜单栏展示内容,增加“更多”按钮进行选择。其次,还优化了手机品牌展示顺序,根据安卓各大品牌市场占有率从高到低依次展示。

    82920发布于 2018-11-04
  • 来自专栏WeTest质量开放平台团队的专栏

    WeTest功能优化第3期:业内首创,有声音的云真机

    3期功能优化目录 【云真机远程调试】音频同步传输实现测试有声 【兼容性测试报告】新增视频助力动态定位问题 【云真机远程调试】菜单栏优化助力机型选择 本期介绍的新功能,秉承创造用户需求的理念,在云真机声音 WeTest助手里的手机控制器不仅能够实时实现视频流,还能够同步传输声音,实现测试有声。 进入云真机产品使用页面后,在“支持音频”中勾选“是”(下图红框),就可以体验有声音的云真机了。 - 选择音频云真机 - 云真机启动手游/应用后,手游/应用自带的声音会同步传输至本地手机,用户能够在本地手机上同步接收声音。更炫酷的是,本地手机音量调节功能,也可以同步传输云真机。 同时,声音同步传输功能也为广大游戏开发者,视频类、音乐类、直播类等应用开发者提供了在测试中定位音频相关的问题的窗口。 3 远程调试菜单栏优化调整,选择一目了然 WeTest收到用户吐槽,“云真机菜单栏有点混乱……筛选目标机型很费劲啊。

    66020发布于 2018-12-11
  • 来自专栏CreateAMind

    声音图片 多感知论文

    In this work, we show that a model trained to predict held-out sound from video frames learns a visual representation that conveys semantically meaningful information. We formulate our sound-prediction task as a classification problem, in which we train a convolutional neural network (CNN) to predict a statistical summary of the sound that occurred at the time a video frame was recorded.

    76220发布于 2018-08-20
  • 来自专栏Fdu弟中弟

    HTML人工合成声音

    问答系统中可以使用的人工合成声音。 <! </select> <label for="rate">Rate:</label> <input name="rate" type="range" min="0" max="<em>3</em>"

    1.1K20发布于 2021-02-24
  • 来自专栏鹅厂网事

    OFC上的腾讯声音

    OFC 2018于3月11日至15日在加利福尼亚州圣地亚哥举行,展示了该领域的最新创新成果,来自65个国家的超过15,500名与会者,700多家参展商和超过850次同行评议的技术会议。

    1.6K50发布于 2018-04-27
  • 来自专栏全栈程序员必看

    Macbook OBS 录制系统声音

    安装好OBS软件 下载并安装soundflower软件,也可以在GitHub中下载 打开midi音频设置 构建多输出设备 例如,我现在是带着外置耳机,并且录制系统声音,那么多输出设备就勾选这两个 配置完成后,我们可以右键选择该设备用于声音输出 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/140636.html原文链接:https://javaforall.cn

    1.6K30编辑于 2022-09-01
  • 来自专栏python3

    Python声音处理入门

    Python声音处理入门 注:本文加入了译者的理解,并非严谨的译作,仅供参考。 ---- 原文Basic Sound Processing with Python描述了怎样在Python中通过pylab接口对声音进行基本的处理。 ,假如你想在python中回放声音,参考pyalsaaudio(Linux)或PyAudio。 1000 #[0ms, 114ms] 然后绘图 plot(timeArray, s1, color='k') ylabel('Amplitude') xlabel('Time (ms)') 3 用函数fft对声音进行快速傅立叶变换(FFT),得到声音的频谱。

    2.3K41发布于 2020-01-10
领券