搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大模型应用
大模型应用：TTA文本驱动音频：MusicGen大模型参数调优+音频情绪可视化.23
一、引言随着语音大模型的普及，不管是TTS还是ASR，都与音频处理有着紧密的联系，AIGC的蓬勃发展，也催生了文本到音频（Text-to-Audio, TTA）的落地场景，音乐生成也走进了我们的实际应用基于传统的信号合成技术凭借完全可控、轻量化的优势，在场景化音效补充中不可替代；而声乐大模型也是雨后勃发，以 MusicGen 为代表的 TTA 大模型，则通过海量数据训练实现了文本意图驱动的创意生成。 Encoder 将自然语言转为语义向量，音频 Decoder 基于语义向量生成音频 Token；Token 化：将音频波形转为离散 Token（类似 LLM 的文本 Token），通过自回归生成实现音频创作核心生成：文本提示预处理→Token生成→音频解码→标准化→输出核心音频3. 音效增强：生成分形雨声→添加混响→音量标准化→输出最终音频4. 结果保存：保存核心音频/最终音频为WAV文件5. 生成过程：将文本转换为模型输入，生成音频token，然后解码为音频波形。最后对音频进行标准化（单声道，幅度归一化）。
42932编辑于 2026-02-20
java实现音频转文本
欢迎关注微信公众号：数据科学与艺术作者WX:superhe199 实现音频转文本，可以使用Java中的SpeechRecognitionAPI。 StreamSpeechRecognizer recognizer = new StreamSpeechRecognizer(configuration); // 读取音频文件 audio.wav"); InputStream audioStream = new FileInputStream(audioFile); // 开始识别音频流
28310编辑于 2025-08-29
来自专栏Linux内核深入分析
Linux音频驱动-PCM设备
应用到驱动的过程当应用程序在通过open系统调用打开/dev/pcmC0D0c的过程 1. if ((err = substream->ops->open(substream)) < 0) 至此，整个pcm设备创建，调用，以及应用到驱动整个流程分析完毕。:)
10.1K33发布于 2020-03-24
来自专栏Linux内核深入分析
Linux音频驱动-Card创建
概述在上节Linux音频驱动-ALSA概述中介绍了整个ALSA的构成，接口以及函数入口的分析。本节将从声卡的创建开始，也就是card的创建。 .driver/shortname/longname: 会在具体驱动中设置，主要反映在/proc/asound/cards中。 .private_data: card的私有数据。创建并且初始化card 几乎所有的音频驱动都会在刚驱动的开始创建card，通常会使用snd_card_new函数。声卡的注册在声卡初始化，会在驱动程序中设置card，完后会调用snd_card_register注册此card到系统中去。
3.5K11发布于 2020-03-24
来自专栏Linux内核深入分析
Linux音频驱动-ALSA概述
概述 ALSA(Advanced Linux Sound Architecture)是linux上主流的音频结构，在没有出现ALSA架构之前，一直使用的是OSS(Open Sound System)音频架构关于OSS的退出以及ALSA的出现，可以看 Linux音频驱动-OSS和ALSA声音系统简介及其比较。关于OSS和ALSA音频架构之间的区别图如下： ? 同样ALSA为了兼容OSS，ALSA提供了内核模块来模拟OSS声音驱动，所以在OSS架构下编写的App无需修改就可以在ALSA下运行。另外libaoos库也可以模拟OSS，无需OSS相关的内核模块。音频子系统文件目录结构音频系统的文件位于kernel/sound下： root@test:~/k3.18/kernel/sound$ ls ac97_bus.c atmel firewire modoles: 列出所有ALSA声卡驱动模块列表。 oss: 此目录下包含了ALSA用来模拟OSS的模拟仿真模块。
6.9K31发布于 2020-03-24
来自专栏Linux内核深入分析
Linux音频驱动-IIS总线标准
介绍许多数字音频系统正被引入消费者音频市场，包括CD，磁带，数字声音处理器和数字电视声音。在这些系统中的数字音频信号需要由许许多多(Very-large-scale integration)的IC组成，处理。在音频系统中常见的IC芯片有: A/D and D/A 转化器（数模转化器）数字信号处理器数字录像，以及出错纠正器数字滤波器数字输入/输出的接口由于设备和IC制造商众多，所以需要一个统一的规范来管理 SD 用二进制补码的形式表示音频数据。传输数据的规则： 1. 保证数据的最高位(MSB)最先被传输。 2. 当系统的发送端数据长度大于接受端数据长度，则接受端会将多余的数据截断。 3.
3.5K11发布于 2020-03-24
来自专栏Linux内核深入分析
Linux音频驱动-ASOC之Machine
，当平台驱动和平台设备(以前在arch下，目前在dt中配置)的名字想匹配的时候，就会调用平台驱动中的probe函数s3c24xx_uda134x_probe。既然此处注册"soc-audio"的设备，就会存在名字为"soc-audio"的驱动，搜索"soc-audio"，就会发现在soc-core.c中存在。 links */ bool playback_only; bool capture_only; }; .cpu_dai_name: 用于指定cpu侧的dai名字，也就是所谓的cpu侧的数字音频接口 .platform_name: 用于指定cpu侧平台驱动，通常都是DMA驱动，用于传输。 .ops: audio的相关操作函数集合。其实ASOC也就是在ALSA的基础上又再次封装了一次，让写驱动更方便，简便。这样封装之后，就可以大大简化驱动的编写，关于Machine驱动需要做的: 1.
2.9K22发布于 2020-03-24
来自专栏Linux内核深入分析
Linux音频驱动-声音采集过程
现实中的声音是一段连续的信号，现在大部分的声音是以离散的数字信号保存下来，例如CD、MP3音频格式。在保存这些信息时，考虑到对声音质量和存储的效率，需要对声音的几个重要的基本属性进行研究。 11,025 Hz 22,050 Hz - 无线电广播所用采样率 32,000 Hz - miniDV 数码视频 camcorder、DAT (LP mode)所用采样率 44,100 Hz - 音频 CD, 也常用于 MPEG-1 音频（VCD, SVCD, MP3）所用采样率 47,250 Hz - Nippon Columbia (Denon)开发的世界上第一个商用 PCM 录音机所用采样率 48,000 Hz - miniDV、数字电视、DVD、DAT、电影和专业音频所用的数字声音所用采样率 50,000 Hz - 二十世纪七十年代后期出现的 3M 和 Soundstream 开发的第一款商用数字录音机所用采样率它是有采样率和采样位数共同决定的指标，例如上述CD的比特率是44100*16*2bit/s = 1.4Mbit/s 存储音频的格式有很多种：非压缩格式：如目前最流行的WAV格式，经常用来保存原始录音数据
2.9K11发布于 2020-03-24
来自专栏Linux内核深入分析
Linux音频驱动-AOSC之Platform
概述在ASOC在Platform部分，主要是平台相关的DMA操作和音频管理。在platfrom侧的主要功能有: 音频数据管理，音频数据传输通过dma；数据如何通过cpudai传入到codec dai，已经cpu测dai的配置。而上述的两大类功能在ASOC中使用两个结构体表示: snd_soc_dai_driver代表cpu侧的dai驱动，其中包括dai的配置(音频格式，clock，音量等)。通常还有另一种方式，会将cpu侧dai的驱动和平台相关的dma驱动分离的。也就是machine中的snd_soc_dai_link的platform_name和cpu_dai_name不相同。总结: 通过machine中的snd_soc_dai_link中的platform_name和cpu_dai_name分别查找平台的dma设备驱动和cpu侧的dai驱动。
3.2K21发布于 2020-03-24
RK3568 音频驱动实验
RK3568 音频驱动实验 1. 音频接口简介 1.1 为何需要音频编解码芯片？录音路径由 MIC PGA 和音频 ADC组成。DAC 将数字信号转换为模拟信号，ab 类驱动器采用实地结构，用于耳机应用，THD 非常低(-90dB @1KHz@-3dBFS 源)。音频驱动使能 RK 官方已经写好了 RK809 CODEC 驱动，因此我们直接配置内核使能 RK809 CODEC 驱动即可，按照如下所示步骤使能 RK809 CODEC 驱动。 compatible匹配 3.2 声卡设备数配置上面配置的是音频驱动，现在我们来看看声卡。 SimpleCard 是 ASoC(Advanced LinuxSound Architecture，高级 Linux 音频架构) 通用的声卡驱动，可支持大部分标准声卡的添加。
42510编辑于 2026-02-02
来自专栏Linux内核深入分析
Linux音频驱动-AOSC之Codec
概述 ASOC的出现是为了让Codec独立于CPU，减少和CPU之间的耦合，这样同一个Codec驱动无需修改就可以适用任何一款平台。还是以下图做参考例子: ? 同时也需要对所有的codec设备进行抽象封装，linux使用snd_soc_codec进行所有codec设备的抽象，而将codec的驱动抽象为snd_soc_codec_driver结构。调用snd_soc_register_dais接口注册dai，传入参数有dai的驱动，以及dai的参数，因为一个codec不止一个dai接口。 regster DAIs: %d\n", ret); goto err_cleanup; } 根据dai的数目，分配snd_soc_dai结构，根据dai的数目设置dai的名字，这是dai的传入参数驱动关于codec侧驱动总结: 1. 分配名字为"codec_name"的平台驱动，注册。 2. 定义struct snd_soc_codec_driver结构，设置，初始化。 3.
3.9K11发布于 2020-03-24
来自专栏嵌入式项目开发
Linux驱动开发-编写VS1053芯片音频驱动
前言 VS1053是一款硬件编解码的音频芯片，提供SPI接口和IIS接口两种通信协议，这篇文章是介绍在Linux下如果模拟SPI时序来操作VS1053完成录音、播放音频歌曲功能。但是没有注册标准的音频驱动，没有对接音频框架，只是在驱动层完成VS1053的直接控制，本篇的重点主要是介绍如何初始化开发板的GPIO口，使用Linux的延时函数，模拟SPI时序，代码写了两种版本，一种是直接通过解码的音频格式支持: MP3、OGG、WMA、WAV、MIDI、AAC、FLAC（需要加载 patch）编码的音频格式支持: WAV(PCM/IMA ADPCM)、OGG（需要加载 patch） VS1053 驱动代码 3.1 驱动端代码 #include <linux/init.h> #include <linux/module.h> #include <linux/ioctl.h> #include <linux \r\n"); //每次接收32个字节数据 while(VS1053_SendMusicData(Music_buff)); //给VS10XX发送音频数据 return len;
3.8K20编辑于 2022-04-08
来自专栏Linux内核深入分析
Linux音频驱动-ASOC(ALSA System on Chip)
Codec驱动与SOC中断CPU耦合严重，这将导致代码重复，一个Codec驱动每个cpu上会出现不同的版本。 2. 当音频事件发生时(插拔耳机，音箱)没有标准的方法通知用户，尤其在移动端此事件非常常见。 3. 当播放/录制音频时，驱动会让整个codec处于上电状态，这样会在移动端非常浪费电量。 ASOC音频架构为了实现上述的新feature，ASOC将嵌入式音频系统分为三大类可重复使用的驱动程序: Platform, Machine, Codec。 Codec类: Codec即编解码芯片的驱动，此Codec驱动是和平台无关，包含的功能有: 音频的控制接口，音频读写IO接口，以及DAPM的定义等。 Platform类: 可以理解为某款SOC平台，平台驱动中包括音频DMA引擎驱动，数字接口驱动(I2S, AC97, PCM)以及该平台相关的任何音频DSP驱动。
3.9K61发布于 2020-03-24
来自专栏小轻论坛
高效音频转文本工具Whisper
大家好，我是站长可乐，今天给大家推荐的是音频转文本工具——Whisper，Whisper是由OpenAI开发的一个自动语音识别(ASR)开源系统。 OpenAI的技术文档介绍了如何基于Whisper模型调用语言转文本API来实现语言转写或将语言翻译成英文的功能。我们现在测试下事先录制好的音频文件，名为“小轻论坛公众号测试文件”。我们将输出格式设置为文本格式，并将其输出到文件夹。点击“抄写”按钮进行转换。从结果来看，文本识别效果还是不错的，有同音字属于正常情况。另外它还将我说的引用内容进行了符号引用，文本也进行了换行，这是我没想到的。当然软件还有很多功能需要挖掘，比如翻译功能和音频捕获功能，这里先给大家演示音频捕获功能，就是边说边转文字。
1.3K10编辑于 2024-09-30
来自专栏iOS开发干货分享
AVFoundation 文本转语音和音频录制播放
现在你应该对AVFoundation有了比较深入的了解，并且对数字媒体的细节也有了一定认识，下面介绍一下 AVFoundation的文本转语音功能 AVSpeechSynthesizer 开发者可以使用就两行代码解决了文本转语音功能。当然很多人会有自己的需求，那么还需要对具体对话中用到的声音和语音字符串定义属性。 willSpeakRangeOfSpeechString characterRange: NSRange, utterance: AVSpeechUtterance) { } 常用的文本转语音功能介绍完了默认音频会话来自于以下一些预配置：激活了音频播放，但是音频录音未激活当用户切换响铃/静音开光到“静音”模式时，应用程序播放的所有音频都会消失当设备显示解锁屏幕时，应用程序的音频处于静音状态当应用程序播放音频时大部分的键都专门定义了特有的各式，不过下面介绍的都是一些通用的音频格式 1.音频格式 AVFormatIDKey 键定义了写入内容的音频格式，下面的常量都是音频格式所支持的值： kAudioFormatLinearPCM
3.2K40发布于 2019-06-14
来自专栏Linux内核深入分析
Linux音频驱动-WAV文件格式分析
Format Chunk Format chunk主要是描述音频数据的格式。如果对此概念不是很了解，可以查看此文章: Linux音频驱动-声音采集过程 .ByteRate: 每秒所需的字节数。在网上下载wav的音频文件，使用mediainfo显示该音频文件的详细信息。 "10 00 00 00" 四字节对应的是该音频的编码方式，通常为16，代表PCM编码方式。也就是十六进制0x10。通过此值可以计算该音频的时长: 46341500/17600=4.37。0.37*60=22.2，则该音频的时长为4mn22s。 "04 00" 数据对齐单位。
5.6K21发布于 2020-03-24
来自专栏程序手艺人
12 -音频驱动TAS5754添加EQ参数
每一个带有音频播放的产品，设备初期的时候都会调试设备的EQ参数。EQ通过将声音中各频率的组成泛音等级加以修改，专为某一类音乐进行优化，增强人们的感觉。 1 调节音频芯片EQ参数一般是专业音响公司做的，必须有专业的设备和调音师完成，最终输出芯片配套的文件，供驱动写入。 0x05}, {0x00,0x00}, // # reg[0][0x2b] = 0x1f {0x2B,0x1F}, {0x00,0x2C}, .... }; tas5754音频芯片调完驱动写入EQ EQ参数实际对应的都是芯片寄存器值，驱动中需要通过IIC写入到音频芯片中，由于音频芯片的EQ参数很多，需要单独在线程中写入，而不影响驱动的正常加载，这就需要内核中Workqueue机制2
1.6K20发布于 2019-02-20
来自专栏人人都是极客
(干货)Ai音箱和Linux音频驱动小谈
四、TINYALSA子系统（1）代码介绍目前linux中主流的音频体系结构是ALSA（Advanced Linux Sound Architecture），ALSA在内核驱动层提供了alsa-driver ALSA对待机支持更好，而用OSS，你需要在待机前使用soundoff来停止OSS驱动，在恢复后使用soundon来启动OSS。（4）ASOC介绍 ASOC--ALSA System on Chip （即ALSA在片选系统上的应用），是建立在标准ALSA驱动层上，为了更好地支持嵌入式处理器和移动设备中的音频Codec的一套软件体系在ASoc出现之前，内核对于SoC中的音频已经有部分的支持，不过会有一些局限性 Codec类: Codec即编解码芯片的驱动，此Codec驱动是和平台无关，包含的功能有: 音频的控制接口，音频读写对应ak7755.c Platform类: 可以理解为某款SOC平台，平台驱动中包括音频DMA引擎驱动，数字接口驱动(I2S, AC97, PCM)以及该平台相关的任何音频DSP驱动。
4.7K21发布于 2019-11-20
来自专栏量子位
不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本
而AI在翻译语音的时候，不把西语的音频转成文本，也不生成任何英语的文本，直接产出了英文音频。和标答一字不差。这是谷歌团队的最新成果，想法大胆而有效。 ? 怎么会不用看文本？这个翻译模型，名字叫做S2ST (全称Speech-to-Speech Translation) 。就是下图的蓝色部分，它负责生成目标声谱图，这只是第一步，还不是音频；二是一个声码器(Vocoder) 。借助转换文本来翻译的AI，缺了个“do”字： ? 第三题，带从句的句子。“我的表 (堂) 兄弟姐妹们小的时候，我照顾过他们也教过他们，有过一些这样的经历。” 的确还有一些差距，但毕竟对手依靠了文本，算是开卷考了。这样说来，直接跳过文本的想法，虽然听起来有些飘，但结果证明是可行的。所以，谷歌团队说，大有可为啊。
2.1K20发布于 2019-04-22
来自专栏AI SPPECH
Audio-Text-to-Text：2025年音频文本转文本技术全解析与应用指南
这类技术不仅能够将各类音频内容转换为可读文本，更能通过多模态融合技术同时处理音频和文本输入，为智能交互提供全新的可能性。，同时处理音频和文本输入，生成高质量文本输出；2025年的技术通过深度学习模型、多模态融合和自适应算法，实现更准确、更智能的系统驱动掌握音频-文本转文本技术将在媒体、教育、医疗、法律等领域占据领先优势 Audio-Text-to-Text是一种将音频信号转换为文本的技术，同时也是一类能够同时接收音频和文本作为输入，并生成文本作为输出的多模态AI模型。这类模型能够融合音频和文本信息，理解它们之间的关联，生成准确、连贯的文本输出。这种机制允许模型在生成文本时，同时考虑音频和文本的信息，提高生成文本的准确性和连贯性。
54310编辑于 2025-11-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

大模型应用：TTA文本驱动音频：MusicGen大模型参数调优+音频情绪可视化.23

java实现音频转文本

Linux音频驱动-PCM设备

Linux音频驱动-Card创建

Linux音频驱动-ALSA概述

Linux音频驱动-IIS总线标准

Linux音频驱动-ASOC之Machine

Linux音频驱动-声音采集过程

Linux音频驱动-AOSC之Platform

RK3568 音频驱动实验

Linux音频驱动-AOSC之Codec

Linux驱动开发-编写VS1053芯片音频驱动

Linux音频驱动-ASOC(ALSA System on Chip)

高效音频转文本工具Whisper

AVFoundation 文本转语音和音频录制播放

Linux音频驱动-WAV文件格式分析

12 -音频驱动TAS5754添加EQ参数

(干货)Ai音箱和Linux音频驱动小谈

不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本

Audio-Text-to-Text：2025年音频文本转文本技术全解析与应用指南

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

大模型应用：TTA文本驱动音频：MusicGen大模型参数调优+音频情绪可视化.23

java实现音频转文本

Linux音频驱动-PCM设备

Linux音频驱动-Card创建

Linux音频驱动-ALSA概述

Linux音频驱动-IIS总线标准

Linux音频驱动-ASOC之Machine

Linux音频驱动-声音采集过程

Linux音频驱动-AOSC之Platform

RK3568 音频驱动实验

Linux音频驱动-AOSC之Codec

Linux驱动开发-编写VS1053芯片音频驱动

Linux音频驱动-ASOC(ALSA System on Chip)

高效音频转文本工具Whisper

AVFoundation 文本转语音和音频录制 播放

Linux音频驱动-WAV文件格式分析

12 -音频驱动TAS5754添加EQ参数

(干货)Ai音箱和Linux音频驱动小谈

不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本

Audio-Text-to-Text：2025年音频文本转文本技术全解析与应用指南

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

AVFoundation 文本转语音和音频录制播放