首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大模型应用

    大模型应用:TTA文本驱动音频:MusicGen大模型参数调优+音频情绪可视化.23

    一、引言 随着语音大模型的普及,不管是TTS还是ASR,都与音频处理有着紧密的联系,AIGC的蓬勃发展,也催生了文本音频(Text-to-Audio, TTA)的落地场景,音乐生成也走进了我们的实际应用 基于传统的信号合成技术凭借完全可控、轻量化的优势,在场景化音效补充中不可替代;而声乐大模型也是雨后勃发,以 MusicGen 为代表的 TTA 大模型,则通过海量数据训练实现了文本意图驱动的创意生成。 Encoder 将自然语言转为语义向量,音频 Decoder 基于语义向量生成音频 Token;Token 化:将音频波形转为离散 Token(类似 LLM 的文本 Token),通过自回归生成实现音频创作 核心生成:文本提示预处理→Token生成→音频解码→标准化→输出核心音频3. 音效增强:生成分形雨声→添加混响→音量标准化→输出最终音频4. 结果保存:保存核心音频/最终音频为WAV文件5. 生成过程:将文本转换为模型输入,生成音频token,然后解码为音频波形。最后对音频进行标准化(单声道,幅度归一化)。

    42932编辑于 2026-02-20
  • java实现音频文本

    欢迎关注微信公众号:数据科学与艺术 作者WX:superhe199 实现音频文本,可以使用Java中的SpeechRecognitionAPI。 StreamSpeechRecognizer recognizer = new StreamSpeechRecognizer(configuration); // 读取音频文件 audio.wav"); InputStream audioStream = new FileInputStream(audioFile); // 开始识别音频

    28310编辑于 2025-08-29
  • 来自专栏Linux内核深入分析

    Linux音频驱动-PCM设备

    应用到驱动的过程 当应用程序在通过open系统调用打开/dev/pcmC0D0c的过程 1. if ((err = substream->ops->open(substream)) < 0) 至此,整个pcm设备创建,调用,以及应用到驱动整个流程分析完毕。:)

    10.1K33发布于 2020-03-24
  • 来自专栏Linux内核深入分析

    Linux音频驱动-Card创建

    概述 在上节Linux音频驱动-ALSA概述中介绍了整个ALSA的构成,接口以及函数入口的分析。 本节将从声卡的创建开始,也就是card的创建。 .driver/shortname/longname: 会在具体驱动中设置,主要反映在/proc/asound/cards中。 .private_data: card的私有数据。 创建并且初始化card 几乎所有的音频驱动都会在刚驱动的开始创建card,通常会使用snd_card_new函数。 声卡的注册 在声卡初始化,会在驱动程序中设置card,完后会调用snd_card_register注册此card到系统中去。

    3.5K11发布于 2020-03-24
  • 来自专栏Linux内核深入分析

    Linux音频驱动-ALSA概述

    概述 ALSA(Advanced Linux Sound Architecture)是linux上主流的音频结构,在没有出现ALSA架构之前,一直使用的是OSS(Open Sound System)音频架构 关于OSS的退出以及ALSA的出现,可以看 Linux音频驱动-OSS和ALSA声音系统简介及其比较。 关于OSS和ALSA音频架构之间的区别图如下: ? 同样ALSA为了兼容OSS,ALSA提供了内核模块来模拟OSS声音驱动,所以在OSS架构下编写的App无需修改就可以在ALSA下运行。另外libaoos库也可以模拟OSS,无需OSS相关的内核模块。 音频子系统文件目录结构 音频系统的文件位于kernel/sound下: root@test:~/k3.18/kernel/sound$ ls ac97_bus.c atmel firewire modoles: 列出所有ALSA声卡驱动模块列表。 oss: 此目录下包含了ALSA用来模拟OSS的模拟仿真模块。

    6.9K31发布于 2020-03-24
  • 来自专栏Linux内核深入分析

    Linux音频驱动-IIS总线标准

    介绍 许多数字音频系统正被引入消费者音频市场,包括CD,磁带,数字声音处理器和数字电视声音。 在这些系统中的数字音频信号需要由许许多多(Very-large-scale integration)的IC组成,处理。 在音频系统中常见的IC芯片有: A/D and D/A 转化器(数模转化器) 数字信号处理器 数字录像,以及出错纠正器 数字滤波器 数字输入/输出的接口 由于设备和IC制造商众多,所以需要一个统一的规范来管理 SD 用二进制补码的形式表示音频数据。传输数据的规则: 1. 保证数据的最高位(MSB)最先被传输。 2. 当系统的发送端数据长度大于接受端数据长度,则接受端会将多余的数据截断。 3.

    3.5K11发布于 2020-03-24
  • 来自专栏Linux内核深入分析

    Linux音频驱动-ASOC之Machine

    , 当平台驱动和平台设备(以前在arch下,目前在dt中配置)的名字想匹配的时候,就会调用平台驱动中的probe函数s3c24xx_uda134x_probe。 既然此处注册"soc-audio"的设备,就会存在名字为"soc-audio"的驱动,搜索"soc-audio",就会发现在soc-core.c中存在。 links */ bool playback_only; bool capture_only; }; .cpu_dai_name: 用于指定cpu侧的dai名字,也就是所谓的cpu侧的数字音频接口 .platform_name: 用于指定cpu侧平台驱动,通常都是DMA驱动,用于传输。 .ops: audio的相关操作函数集合。 其实ASOC也就是在ALSA的基础上又再次封装了一次,让写驱动更方便,简便。 这样封装之后,就可以大大简化驱动的编写,关于Machine驱动需要做的: 1.

    2.9K22发布于 2020-03-24
  • 来自专栏Linux内核深入分析

    Linux音频驱动-声音采集过程

    现实中的声音是一段连续的信号, 现在大部分的声音是以离散的数字信号保存下来,例如CD、MP3音频格式。 在保存这些信息时,考虑到对声音质量和存储的效率, 需要对声音的几个重要的基本属性进行研究。 11,025 Hz 22,050 Hz - 无线电广播所用采样率 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频(VCD, SVCD, MP3)所用采样率 47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率 50,000 Hz - 二十世纪七十年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用采样率 它是有采样率和采样位数共同决定的指标, 例如上述CD的比特率是44100*16*2bit/s = 1.4Mbit/s 存储音频的格式有很多种: 非压缩格式:如目前最流行的WAV格式, 经常用来保存原始录音数据

    2.9K11发布于 2020-03-24
  • 来自专栏Linux内核深入分析

    Linux音频驱动-AOSC之Platform

    概述 在ASOC在Platform部分,主要是平台相关的DMA操作和音频管理。 在platfrom侧的主要功能有: 音频数据管理,音频数据传输通过dma; 数据如何通过cpudai传入到codec dai,已经cpu测dai的配置。 而上述的两大类功能在ASOC中使用两个结构体表示: snd_soc_dai_driver代表cpu侧的dai驱动,其中包括dai的配置(音频格式,clock,音量等)。 通常还有另一种方式,会将cpu侧dai的驱动和平台相关的dma驱动分离的。也就是machine中的snd_soc_dai_link的platform_name和cpu_dai_name不相同。 总结: 通过machine中的snd_soc_dai_link中的platform_name和cpu_dai_name分别查找平台的dma设备驱动和cpu侧的dai驱动

    3.2K21发布于 2020-03-24
  • RK3568 音频驱动实验

    RK3568 音频驱动实验 1. 音频接口简介 1.1 为何需要音频编解码芯片? ​ 录音路径由 MIC PGA 和音频 ADC组成。DAC 将数字信号转换为模拟信号,ab 类驱动器采用实地结构,用于耳机应用,THD 非常低(-90dB @1KHz@-3dBFS 源)。 音频驱动使能 ​ RK 官方已经写好了 RK809 CODEC 驱动,因此我们直接配置内核使能 RK809 CODEC 驱动即可,按照如下所示步骤使能 RK809 CODEC 驱动。 compatible匹配 3.2 声卡设备数配置 ​ 上面配置的是音频驱动,现在我们来看看声卡。 SimpleCard 是 ASoC(Advanced LinuxSound Architecture,高级 Linux 音频架构) 通用的声卡驱动,可支持大部分标准声卡的添加。

    42510编辑于 2026-02-02
  • 来自专栏Linux内核深入分析

    Linux音频驱动-AOSC之Codec

    概述 ASOC的出现是为了让Codec独立于CPU,减少和CPU之间的耦合,这样同一个Codec驱动无需修改就可以适用任何一款平台。还是以下图做参考例子: ? 同时也需要对所有的codec设备进行抽象封装,linux使用snd_soc_codec进行所有codec设备的抽象,而将codec的驱动抽象为snd_soc_codec_driver结构。 调用snd_soc_register_dais接口注册dai,传入参数有dai的驱动,以及dai的参数,因为一个codec不止一个dai接口。 regster DAIs: %d\n", ret); goto err_cleanup; } 根据dai的数目,分配snd_soc_dai结构,根据dai的数目设置dai的名字,这是dai的传入参数驱动 关于codec侧驱动总结: 1. 分配名字为"codec_name"的平台驱动,注册。 2. 定义struct snd_soc_codec_driver结构,设置,初始化。 3.

    3.9K11发布于 2020-03-24
  • 来自专栏嵌入式项目开发

    Linux驱动开发-编写VS1053芯片音频驱动

    前言 VS1053是一款硬件编解码的音频芯片,提供SPI接口和IIS接口两种通信协议,这篇文章是介绍在Linux下如果模拟SPI时序来操作VS1053完成录音、播放音频歌曲功能。 但是没有注册标准的音频驱动,没有对接音频框架,只是在驱动层完成VS1053的直接控制,本篇的重点主要是介绍如何初始化开发板的GPIO口,使用Linux的延时函数,模拟SPI时序,代码写了两种版本,一种是直接通过 解码的音频格式支持: MP3、OGG、WMA、WAV、MIDI、AAC、FLAC(需要加载 patch) 编码的音频格式支持: WAV(PCM/IMA ADPCM)、OGG(需要加载 patch) VS1053 驱动代码 3.1 驱动端代码 #include <linux/init.h> #include <linux/module.h> #include <linux/ioctl.h> #include <linux \r\n"); //每次接收32个字节数据 while(VS1053_SendMusicData(Music_buff)); //给VS10XX发送音频数据 return len;

    3.8K20编辑于 2022-04-08
  • 来自专栏Linux内核深入分析

    Linux音频驱动-ASOC(ALSA System on Chip)

    Codec驱动与SOC中断CPU耦合严重,这将导致代码重复,一个Codec驱动每个cpu上会出现不同的版本。 2. 当音频事件发生时(插拔耳机,音箱)没有标准的方法通知用户,尤其在移动端此事件非常常见。 3. 当播放/录制音频时,驱动会让整个codec处于上电状态,这样会在移动端非常浪费电量。 ASOC音频架构 为了实现上述的新feature,ASOC将嵌入式音频系统分为三大类可重复使用的驱动程序: Platform, Machine, Codec。 Codec类: Codec即编解码芯片的驱动,此Codec驱动是和平台无关,包含的功能有: 音频的控制接口,音频读写IO接口,以及DAPM的定义等。 Platform类: 可以理解为某款SOC平台,平台驱动中包括音频DMA引擎驱动,数字接口驱动(I2S, AC97, PCM)以及该平台相关的任何音频DSP驱动

    3.9K61发布于 2020-03-24
  • 来自专栏小轻论坛

    高效音频文本工具Whisper

    大家好,我是站长可乐,今天给大家推荐的是音频文本工具——Whisper,Whisper是由OpenAI开发的一个自动语音识别(ASR)开源系统。 OpenAI的技术文档介绍了如何基于Whisper模型调用语言转文本API来实现语言转写或将语言翻译成英文的功能。 我们现在测试下事先录制好的音频文件,名为“小轻论坛公众号测试文件”。 我们将输出格式设置为文本格式,并将其输出到文件夹。点击“抄写”按钮进行转换。 从结果来看,文本识别效果还是不错的,有同音字属于正常情况。另外它还将我说的引用内容进行了符号引用,文本也进行了换行,这是我没想到的。 当然软件还有很多功能需要挖掘,比如翻译功能和音频捕获功能,这里先给大家演示音频捕获功能,就是边说边转文字。

    1.3K10编辑于 2024-09-30
  • 来自专栏iOS开发干货分享

    AVFoundation 文本转语音和音频录制 播放

    现在你应该对AVFoundation有了比较深入的了解,并且对数字媒体的细节也有了一定认识,下面介绍一下 AVFoundation的文本转语音功能 AVSpeechSynthesizer 开发者可以使用 就两行代码解决了文本转语音功能。当然很多人会有自己的需求,那么还需要对具体对话中用到的声音和语音字符串定义属性。 willSpeakRangeOfSpeechString characterRange: NSRange, utterance: AVSpeechUtterance) { } 常用的文本转语音功能介绍完了 默认音频会话来自于以下一些预配置: 激活了音频播放,但是音频录音未激活 当用户切换响铃/静音开光到“静音”模式时,应用程序播放的所有音频都会消失 当设备显示解锁屏幕时,应用程序的音频处于静音状态 当应用程序播放音频时 大部分的键都专门定义了特有的各式,不过下面介绍的都是一些通用的音频格式 1.音频格式 AVFormatIDKey 键定义了写入内容的音频格式,下面的常量都是音频格式所支持的值: kAudioFormatLinearPCM

    3.2K40发布于 2019-06-14
  • 来自专栏Linux内核深入分析

    Linux音频驱动-WAV文件格式分析

    Format Chunk Format chunk主要是描述音频数据的格式。 如果对此概念不是很了解,可以查看此文章: Linux音频驱动-声音采集过程 .ByteRate: 每秒所需的字节数。 在网上下载wav的音频文件,使用mediainfo显示该音频文件的详细信息。 "10 00 00 00" 四字节对应的是该音频的编码方式,通常为16,代表PCM编码方式。也就是十六进制0x10。 通过此值可以计算该音频的时长: 46341500/17600=4.37。0.37*60=22.2,则该音频的时长为4mn22s。 "04 00" 数据对齐单位。

    5.6K21发布于 2020-03-24
  • 来自专栏程序手艺人

    12 -音频驱动TAS5754添加EQ参数

    每一个带有音频播放的产品,设备初期的时候都会调试设备的EQ参数。EQ通过将声音中各频率的组成泛音等级加以修改,专为某一类音乐进行优化,增强人们的感觉。 1 调节音频芯片EQ参数一般是专业音响公司做的,必须有专业的设备和调音师完成,最终输出芯片配套的文件,供驱动写入。 0x05}, {0x00,0x00}, // # reg[0][0x2b] = 0x1f {0x2B,0x1F}, {0x00,0x2C}, .... }; tas5754音频芯片调完 驱动写入EQ EQ参数实际对应的都是芯片寄存器值,驱动中需要通过IIC写入到音频芯片中,由于音频芯片的EQ参数很多,需要单独在线程中写入,而不影响驱动的正常加载,这就需要内核中Workqueue机制2

    1.6K20发布于 2019-02-20
  • 来自专栏人人都是极客

    (干货)Ai音箱和Linux音频驱动小谈

    四、TINYALSA子系统 (1)代码介绍 目前linux中主流的音频体系结构是ALSA(Advanced Linux Sound Architecture),ALSA在内核驱动层提供了alsa-driver ALSA对待机支持更好,而用OSS,你需要在待机前使用soundoff来停止OSS驱动,在恢复后使用soundon来启动OSS。 (4)ASOC介绍 ASOC--ALSA System on Chip (即ALSA在片选系统上的应用),是建立在标准ALSA驱动层上,为了更好地支持嵌入式处理器和移动设备中的音频Codec的一套软件体系 在ASoc出现之前,内核对于SoC中的音频已经有部分的支持,不过会有一些局限性 Codec类: Codec即编解码芯片的驱动,此Codec驱动是和平台无关,包含的功能有: 音频的控制接口,音频读写 对应ak7755.c Platform类: 可以理解为某款SOC平台,平台驱动中包括音频DMA引擎驱动,数字接口驱动(I2S, AC97, PCM)以及该平台相关的任何音频DSP驱动

    4.7K21发布于 2019-11-20
  • 来自专栏量子位

    不识字也能翻译:谷歌AI直接用音频音频,不用先转文本

    而AI在翻译语音的时候,不把西语的音频转成文本,也不生成任何英语的文本,直接产出了英文音频。和标答一字不差。 这是谷歌团队的最新成果,想法大胆而有效。 ? 怎么会不用看文本? 这个翻译模型,名字叫做S2ST (全称Speech-to-Speech Translation) 。 就是下图的蓝色部分,它负责生成目标声谱图,这只是第一步,还不是音频; 二是一个声码器(Vocoder) 。 借助转换文本来翻译的AI,缺了个“do”字: ? 第三题,带从句的句子。“我的表 (堂) 兄弟姐妹们小的时候,我照顾过他们也教过他们,有过一些这样的经历。” 的确还有一些差距,但毕竟对手依靠了文本,算是开卷考了。 这样说来,直接跳过文本的想法,虽然听起来有些飘,但结果证明是可行的。 所以,谷歌团队说,大有可为啊。

    2.1K20发布于 2019-04-22
  • 来自专栏AI SPPECH

    Audio-Text-to-Text:2025年音频文本文本技术全解析与应用指南

    这类技术不仅能够将各类音频内容转换为可读文本,更能通过多模态融合技术同时处理音频文本输入,为智能交互提供全新的可能性。 ,同时处理音频文本输入,生成高质量文本输出;2025年的技术通过深度学习模型、多模态融合和自适应算法,实现更准确、更智能的系统 驱动 掌握音频-文本文本技术将在媒体、教育、医疗、法律等领域占据领先优势 Audio-Text-to-Text是一种将音频信号转换为文本的技术,同时也是一类能够同时接收音频文本作为输入,并生成文本作为输出的多模态AI模型。 这类模型能够融合音频文本信息,理解它们之间的关联,生成准确、连贯的文本输出。 这种机制允许模型在生成文本时,同时考虑音频文本的信息,提高生成文本的准确性和连贯性。

    54310编辑于 2025-11-12
领券