搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

java实现音频转文本
欢迎关注微信公众号：数据科学与艺术作者WX:superhe199 实现音频转文本，可以使用Java中的SpeechRecognitionAPI。 StreamSpeechRecognizer recognizer = new StreamSpeechRecognizer(configuration); // 读取音频文件 audio.wav"); InputStream audioStream = new FileInputStream(audioFile); // 开始识别音频流
32310编辑于 2025-08-29
来自专栏iOS开发干货分享
AVFoundation 文本转语音和音频录制播放
现在你应该对AVFoundation有了比较深入的了解，并且对数字媒体的细节也有了一定认识，下面介绍一下 AVFoundation的文本转语音功能 AVSpeechSynthesizer 开发者可以使用就两行代码解决了文本转语音功能。当然很多人会有自己的需求，那么还需要对具体对话中用到的声音和语音字符串定义属性。 willSpeakRangeOfSpeechString characterRange: NSRange, utterance: AVSpeechUtterance) { } 常用的文本转语音功能介绍完了默认音频会话来自于以下一些预配置：激活了音频播放，但是音频录音未激活当用户切换响铃/静音开光到“静音”模式时，应用程序播放的所有音频都会消失当设备显示解锁屏幕时，应用程序的音频处于静音状态当应用程序播放音频时大部分的键都专门定义了特有的各式，不过下面介绍的都是一些通用的音频格式 1.音频格式 AVFormatIDKey 键定义了写入内容的音频格式，下面的常量都是音频格式所支持的值： kAudioFormatLinearPCM
3.4K40发布于 2019-06-14
来自专栏小轻论坛
高效音频转文本工具Whisper
大家好，我是站长可乐，今天给大家推荐的是音频转文本工具——Whisper，Whisper是由OpenAI开发的一个自动语音识别(ASR)开源系统。 OpenAI的技术文档介绍了如何基于Whisper模型调用语言转文本API来实现语言转写或将语言翻译成英文的功能。我们现在测试下事先录制好的音频文件，名为“小轻论坛公众号测试文件”。我们将输出格式设置为文本格式，并将其输出到文件夹。点击“抄写”按钮进行转换。从结果来看，文本识别效果还是不错的，有同音字属于正常情况。另外它还将我说的引用内容进行了符号引用，文本也进行了换行，这是我没想到的。当然软件还有很多功能需要挖掘，比如翻译功能和音频捕获功能，这里先给大家演示音频捕获功能，就是边说边转文字。
1.5K10编辑于 2024-09-30
来自专栏点滴代码
Base64转amr音频文件
function dataURL2Audio(fname, base64Str, callback) { //base64转amr文件 var mv = base64Str || ''; if
2.7K50编辑于 2022-12-23
来自专栏python前行者
pyfiglet文本转艺术字体
pyfiglet 是一个 Python 库，用于将文本转换为各种 ASCII 艺术字体。通过该库，程序员可以轻松地将普通文本转换为具有装饰性的艺术字体，适用于打印标题、标语等。易用性：简单几行代码即可实现文本转换。灵活性：允许自定义文本样式和颜色。 renderText方法用于将文本转换为指定的样式。字符串颜色为文本添加颜色可以增强视觉冲击力，pyfiglet可以与第三方库配合实现文本颜色的添加。多行文本处理处理多行文本时，pyfiglet可以灵活应对，以下是如何处理多行文本的示例： import pyfiglet # 多行文本处理 figlet_text = pyfiglet.Figlet 字符串对齐 pyfiglet允许你轻松地对齐文本，以下是如何对齐文本的示例： import pyfiglet # 字符串对齐 figlet_text = pyfiglet.Figlet(justify
97100编辑于 2025-04-20
AI 音频转视频秘籍：从原理到实践
其中，AI 音频转视频技术为创作者们提供了一个全新的维度，使得将单纯的音频内容转化为富有视觉吸引力的视频变得轻而易举。一、AI 音频转视频的原理剖析AI 音频转视频并非魔法，其背后有着严谨的技术逻辑。当输入一段音频时，AI 系统首先会对音频进行全面分析。这包括解析音频的节奏、旋律、和声、音色等多个维度的特征。 Pictory特点：专注于从脚本生成视频，对有详细脚本的音频内容转化效果极佳。它具备强大的文本转语音功能，提供多种逼真的语音选项，可根据音频内容的情感和风格选择合适的语音进行配音。 Descript特点：Descript 以其独特的基于文本的视频编辑方式而闻名。它允许用户像编辑文档一样编辑视频，通过直接修改音频的文字转录来剪辑视频，操作简单直观。输入创意指令（如果需要）文本提示：一些高级的 AI 工具支持通过输入文本提示来引导视频的生成。例如，你可以描述你希望在视频中看到的场景、画面元素、色彩风格等。
2K00编辑于 2025-08-07
来自专栏python与大数据分析
关于PDF文件转图片、转文本
前几天在做应标方案，少不了从各种合同、验收文档中截取一下案例图片，试了半天也没找到合适的工具，从网上找python相关方案，最后选中了PyMuPDF，主要是好用，而且功能也听过，目前只实现了pdf转图片，pdf抽取文本两种功能，后续的有待再学习。
2.2K20编辑于 2022-03-11
来自专栏ZackSock
文本文件转excel文件
三、文本文件转excel文件上面的几个操作就足够我们今天的操作了，下面我们来看看如何将文本文件转换成Excel文件。 1、寻找规律在文章开头说了，我们只能将有规律的文本文件转换成Excel，不然没有太多意义。所以我们第一步就是找规律。 2、开始转换首先我们要处理文本，然后再写入Excel，具体代码如下： from openpyxl import Workbook wb = Workbook() ws = wb.active # 处理文件 line.split("\t") item.insert(0, i) ws.append(item) wb.save("1.xlsx") 经过上面的处理，我们就成功将文本转换成
2.8K50编辑于 2021-12-18
来自专栏量子位
不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本
而AI在翻译语音的时候，不把西语的音频转成文本，也不生成任何英语的文本，直接产出了英文音频。和标答一字不差。这是谷歌团队的最新成果，想法大胆而有效。 ? 怎么会不用看文本？这个翻译模型，名字叫做S2ST (全称Speech-to-Speech Translation) 。就是下图的蓝色部分，它负责生成目标声谱图，这只是第一步，还不是音频；二是一个声码器(Vocoder) 。借助转换文本来翻译的AI，缺了个“do”字： ? 第三题，带从句的句子。“我的表 (堂) 兄弟姐妹们小的时候，我照顾过他们也教过他们，有过一些这样的经历。” 的确还有一些差距，但毕竟对手依靠了文本，算是开卷考了。这样说来，直接跳过文本的想法，虽然听起来有些飘，但结果证明是可行的。所以，谷歌团队说，大有可为啊。
2.2K20发布于 2019-04-22
来自专栏办公魔盒
VBA TXT文本文件转 Excel
导入数据 '关闭屏幕刷新 Application.ScreenUpdating = false Dim arry() As String, f As String, j As Long '选择文本文件 Application.GetOpenFilename("Text Files (*.txt),*.txt", , "请选择文件") If mytxt = False Then Exit Sub '打开文本文件
3.3K40发布于 2019-07-22
来自专栏办公魔盒
VBA EXCEL 转 TXT 文本文件
在日常工作中，我们很多时候都会用到TXT，XML,JSON等文件作为数据储存介质，方便我们导进系统，数据库等；今天开号第一天先来一个Excel转TXT文件文件，VBA小源码！ Integer Dim txtwd As String '弹窗选择保存路径，并注明保存类型 wjm = Application.GetSaveAsFilename(FileFilter:="文本文件
3K10发布于 2019-07-22
来自专栏AI SPPECH
Audio-Text-to-Text：2025年音频文本转文本技术全解析与应用指南
这类技术不仅能够将各类音频内容转换为可读文本，更能通过多模态融合技术同时处理音频和文本输入，为智能交互提供全新的可能性。，同时处理音频和文本输入，生成高质量文本输出；2025年的技术通过深度学习模型、多模态融合和自适应算法，实现更准确、更智能的系统驱动掌握音频-文本转文本技术将在媒体、教育、医疗、法律等领域占据领先优势 Audio-Text-to-Text是一种将音频信号转换为文本的技术，同时也是一类能够同时接收音频和文本作为输入，并生成文本作为输出的多模态AI模型。这类模型能够融合音频和文本信息，理解它们之间的关联，生成准确、连贯的文本输出。这种机制允许模型在生成文本时，同时考虑音频和文本的信息，提高生成文本的准确性和连贯性。
70910编辑于 2025-11-12
来自专栏技术路漫漫
手把手帮你视频转文本（2-音频转录）
这是本系列的第二篇，第一篇我们完成了将MP4视频转换为PCM音频，这篇我们实现基于百度云的录音转写，本文所有源代码参见：https://gitee.com/coolpine/thomas 对象存储服务调用 Optional.ofNullable(restTemplate.postForEntity(postUrl.toString(), request, String.class)); } 基于录音文件URL，创建文本转写任务到此，我们将完成了将PCM文件上传到云端，并实现调用录音转写服务，解析得到文本内容，如果相关问题或疑问，欢迎给我留言。
1.6K01发布于 2020-06-10
来自专栏程序手艺人
Type-C 转 3.5mm音频接口介绍
简介常见的Type-C 转3.5mm 线有两种：模拟Type-C转3.5mm音频线数字Type-C转3.5mm 音频线，也就是带DAC芯片的转换线当使用Type-C转换3.5mm音频接口时，使用到的是这里面的而当我们使用数字Type-C转3.5mm音频线时候，就完全不同了，Type-C接口直接与手机相连，手机会直接发送数字信号，然后数字Type-C转3.5mm 音频线自行解码驱动发声单元，这种模式才能发挥Type-C 数字Type-C转3.5mm音频线包含一个USB声卡+DAC/ADC+AMP+模拟输出/输入，当数字Type-C转3.5mm音频线接入到手机(otg)或者电脑后，手机或者电脑识别到了USB设备，并创建相应的声卡后针对数字Type-C转3.5mm 音频线，会有不同厂家的芯片解决方案 type c音频数字解码DAC无损音质HiFi解码耳放华为小米魅族转接头可以看下绿联这根线明确标注用的是BES3002芯片几家不同方案对比可以看下拆解报告：ANOPE Type-c转3.5mm音频转换线了解下内部的构成。
7.2K21编辑于 2022-12-31
来自专栏全栈程序员必看
python 匹配文本全角转半角字符「建议收藏」
在对文本进行处理的时候经常会遇见要对括号和标点进行匹配常见的英文(半角)符号如( ) 直接用正则匹配即可但是遇见全角字符(中文括号、标点)，直接用正则匹配会存在问题：因为编码通常为为utf8，若直接匹配但也无法直接用正则匹配到经过试验，发现一个看上去最佳的解决方法: 将字符串decode之后调用一个将全角符号转为半角符号的方法，然后处理返回的字符串 def strQ2B(ustring): """全角转半角第二种方法简单直接如果能快速方便列出所有形式的待匹配符号，就果断选用第二个反之，若待匹配的各种符号太多太繁琐，就统一转为半角再处理更好发布者：全栈程序员栈长，转载请注明出处：https://javaforall.cn
1.9K10编辑于 2022-09-13
来自专栏大模型应用
大模型应用：TTA文本驱动音频：MusicGen大模型参数调优+音频情绪可视化.23
一、引言随着语音大模型的普及，不管是TTS还是ASR，都与音频处理有着紧密的联系，AIGC的蓬勃发展，也催生了文本到音频（Text-to-Audio, TTA）的落地场景，音乐生成也走进了我们的实际应用 Encoder 将自然语言转为语义向量，音频 Decoder 基于语义向量生成音频 Token；Token 化：将音频波形转为离散 Token（类似 LLM 的文本 Token），通过自回归生成实现音频创作核心生成：文本提示预处理→Token生成→音频解码→标准化→输出核心音频3. 音效增强：生成分形雨声→添加混响→音量标准化→输出最终音频4. 结果保存：保存核心音频/最终音频为WAV文件5. generate_from_text：根据文本提示生成音频，可以调整生成参数（temperature、guidance_scale等）。生成过程：将文本转换为模型输入，生成音频token，然后解码为音频波形。最后对音频进行标准化（单声道，幅度归一化）。
53032编辑于 2026-02-20
来自专栏wujunmin
Power BI 文本转图标自定义函数
文本包含文字、字母、符号、emoji等内容，将文本转换为图标后可以用在Power BI 表格矩阵条件格式、按钮切片器、新卡片图视觉对象，增强可视化效果。我设计了一个文本转图标函数，函数名称为SVGTextIcon。新建一个度量值，引用该函数，填入三个参数： SVG文本 =SVGTextIcon("字","lightgrey","red") 第一个参数为文本内容，第二个参数为文本背景色，第三个参数为文本颜色。下图是符号文本嵌入条件格式：对应图标度量值为： SVG文本 =SVGTextIcon( IF([M.业绩达成率]>=1,"✔","✘"), "lightgrey", IF ([M.业绩达成率]>=1,"green","red") ) 以下是表情包嵌入按钮切片器图像区域：对应图标度量值为： SVG文本 =SVGTextIcon( IF([M.业绩达成率]>=1,
27010编辑于 2025-11-17
来自专栏张善友的专栏
OpenAI的离线音频转文本模型 Whisper 的.NET封装项目
Whisper系统所提供的自动语音辨识（Automatic Speech Recognition，ASR）模型是被训练来运行语音辨识与翻译任务的，它们能将各种语言的语音变成文本，也能将这些文本翻译成英文下面我们体验一下这个开箱即用的工具Whisper，从https://github.com/Const-me/Whisper 下周最新的版本：运行起来，从Hugging Face 下载模型，选择转化的语言、音频路径、文本类型、文本保存位置，运行一段时间后，打开后就可以看到文本内容了实测medium模型：20min音频，大致耗时20~30min，这个效果是很不错了。
1.8K10编辑于 2023-04-28
来自专栏技术路漫漫
手把手帮你视频转文本（1-视频转音频）
本系列将介绍如何一步步实现将mp4视频中的语音对话，自动转换为文本，并输出到word文档中。这里第一篇，先完成视频转音频处理。总体技术架构下图是整体转换流程：先将mp4视频文件，通过ffmpeg工具库，批量转换为pcm音频文件（语音识别服务仅支持该格式）基于百度云的技术，将pcm文件上传到百度对象存储BOS中，并将日志等记录到本地转换结果示例我们这里实现的是将《托马斯和他的朋友们第18季》20集MP4视频，最终转换为一个word故事文档：下面是第一集具体对话文本表格：视频转音频视频转音频基于ffmpeg库来实现。： -i 输入文件 -an 去除音频流 -vn 去除视频流 -acodec 设置音频编码 -f 强制指定输入或输出文件的编码 -ac 设置音频轨道数 -ar 设置音频采用频率 -y 不经过确认，直接覆盖同名文件 start().waitFor(); } catch (InterruptedException | IOException e) { log.error("ffmpeg将mp4转换为
3.1K00发布于 2020-06-10
来自专栏datartisan
Python办公自动化 | word 文本转 excel
问题来了：如何进行 word 文本转 excel？ word 版本文件是这样的：可以看出，文件具有4层目录，每一个数据项又包含了定义、英文缩写、数据格式、说明等内容。 pdfplumber 读取成功并写入txt 最后，我又发现了 pdfplumber 他可以完美解析中文，太棒了查看 page_text 数据类型，发现是 str ，就是返回的全部的文本内容，是一个很长很长的字符串 \tmp.txt") file = f.readlines() 使用正则表达式识别文本、OrderedDict封装文本定义正则表达式 pattern 这里定义多个 pattern 表达式用于识别标题和文本内容 content3 = re.compile("数据格式") content4 = re.compile("说明") 定义9个 OrderedDict 这里定义9个 OrderedDict 用于封装标题和文本内容
1.5K21编辑于 2022-08-22

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

java实现音频转文本

AVFoundation 文本转语音和音频录制播放

高效音频转文本工具Whisper

Base64转amr音频文件

pyfiglet文本转艺术字体

AI 音频转视频秘籍：从原理到实践

关于PDF文件转图片、转文本

文本文件转excel文件

不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本

VBA TXT文本文件转 Excel

VBA EXCEL 转 TXT 文本文件

Audio-Text-to-Text：2025年音频文本转文本技术全解析与应用指南

手把手帮你视频转文本（2-音频转录）

Type-C 转 3.5mm音频接口介绍

python 匹配文本全角转半角字符「建议收藏」

大模型应用：TTA文本驱动音频：MusicGen大模型参数调优+音频情绪可视化.23

Power BI 文本转图标自定义函数

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

手把手帮你视频转文本（1-视频转音频）

Python办公自动化 | word 文本转 excel

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

java实现音频转文本

AVFoundation 文本转语音和音频录制 播放

高效音频转文本工具Whisper

Base64转amr音频文件

pyfiglet文本转艺术字体

AI 音频转视频秘籍：从原理到实践

关于PDF文件转图片、转文本

文本文件转excel文件

不识字也能翻译：谷歌AI直接用音频翻音频，不用先转文本

VBA TXT文本文件 转 Excel

VBA EXCEL 转 TXT 文本文件

Audio-Text-to-Text：2025年音频文本转文本技术全解析与应用指南

手把手帮你视频转文本（2-音频转录）

Type-C 转 3.5mm音频接口介绍

python 匹配文本全角转半角字符「建议收藏」

大模型应用：TTA文本驱动音频：MusicGen大模型参数调优+音频情绪可视化.23

Power BI 文本转图标自定义函数

OpenAI的离线音频转文本模型 Whisper 的.NET封装项目

手把手帮你视频转文本（1-视频转音频）

Python办公自动化 | word 文本转 excel

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

AVFoundation 文本转语音和音频录制播放

VBA TXT文本文件转 Excel