搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏ASR
如何提升语音转写准确率？
研究背景无论是使用开源的ASR还是商业收费的ASR都面临着一个问题，就是识别某些领域内容的语音的时候不准确，比如在识别一些关于AI和云计算相关的一些名词的时候，市面上的ASR都是不能准确识别。
92210编辑于 2025-04-19
语音转录·文理贯通：AI 智能语音转写系统重塑语音数据处理新范式
语音转写技术迈入精准理解时代在语音数据爆炸式增长与实时交互需求日益增长的数字化环境中，传统语音转写系统面临准确率不足、场景适应性差、语义理解缺失等核心挑战。 AI 智能语音转写系统通过深度融合端到端语音识别、语境理解与自适应学习技术，构建了高准确率、强鲁棒性、多场景覆盖的智能转写体系，实现了从"语音到文本"到"语音到认知"的技术跨越。；端到端语音识别模型直接建模语音到文本的映射关系；语境理解模块结合对话上下文优化转写结果；自适应后处理系统基于使用反馈持续优化领域术语识别。 97%实时转写延迟级联架构延迟显著流式识别模型优化平均延迟降低至 300ms说话人分离基于声纹的简单区分深度学习多说话人分离说话人区分准确率 92% 智能语音理解引擎原理系统核心技术在于多层次的语音理解与转写优化最终构建具备实时学习、持续进化能力的新一代语音智能转写生态。
35610编辑于 2025-10-30
来自专栏搜狗测试
语音识别基础学习与录音笔实时转写测试
一、引言小编所在项目中，C1、C1Pro、C1Max录音笔，通过BLE和APP连接，音频文件实时传输到录音助手App端，具备实时录音转写的功能。工欲善其事必先利其器，小编补习了语音识别相关基础知识，对所测试应用的实时转写业务逻辑有了更深的认识。希望对语音测试的小伙伴们也有所帮助~~(●—●) 二、语音识别基础概念 1、语音识别（Automatic Speech Recognition，ASR）语音识别，也被称自动语音识别，所要解决的问题是让机器能够 VAD技术主要用于语音编码和语音识别。通俗来讲，就是判断什么时候有语音什么时候没有语音（静音）。语音信号处理或是语音识别都是在VAD截取出来的有效语音片段上进行的。 2、录音笔实时录音转写 ? (1). 录音笔多麦克风阵列收音（C1 Max为例），存储2种格式的音频文件：opus格式（用于传输，压缩格式，便于传输）、wav格式（用于听感）； (2).
4.1K20发布于 2020-11-02
来自专栏新智元
深度全序列卷积神经网络克服LSTM缺陷，成功用于语音转写
本文是对科大讯飞使用DFCNN应用于语音转写技术的详细解读，其外还包含了语音转写中口语化和篇章级语言模型处理、噪声和远场识别和文本处理实时纠错以及文字后处理等技术的分析。但是，语音应用的另一层面，即语音转写，目前仍存在一定的难点，由于在产生录音文件的过程中使用者并没有预计到该录音会被用于语音识别，因而与语音听写相比，语音转写将面临说话风格、口音、录音质量等诸多挑战。语音转写的典型场景包括，记者采访、电视节目、课堂及交谈式会议等等，甚至包括任何人在日常的工作生活中产生的任何录音文件。语音转写的市场及想象空间是巨大的，想象一下，如果人类可以征服语音转写，电视节目可以自动生动字幕、正式会议可以自动形成记要、记者采访的录音可以自动成稿……人的一生中说的话要比我们写过的字多的多，如果有一个软件能记录我们所说过的所有的话并进行高效的管理文本处理实时纠错+文字后处理前面所说的都只是对于语音的处理技术，即将录音转录成文字，但正如上文所述人类的口语为无组织性的自然语言，即使在语音转写正确率非常高的情况下，语音转写文本的可阅读性仍存在较大的问题
3.8K50发布于 2018-03-23
开源神器WhisperLiveKit：本地部署+实时语音转写，会议纪要15分钟搞定
这些研发场景中的高频痛点，一款开源工具即可解决——WhisperLiveKit，基于OpenAI Whisper打造的实时语音转文本方案，本地化运行+低延迟转录+精准说话人识别，实测可大幅提升工作流效率全本地部署，敏感数据零泄露语音数据全程在本地设备处理，无需上传云端服务器，技术方案细节、接口密钥、核心架构等敏感讨论内容，从根源规避泄露风险。支持离线工作模式，模型下载完成后，无网络环境下仍可正常完成转录，适配出差、机房调试等无网络场景的转写需求。 2. 内置Silero VAD语音活动检测算法，可智能过滤键盘敲击、环境噪音，咖啡厅、开放办公区等复杂环境下，仍能精准捕捉有效发言内容。支持多GPU并行处理，通过 --preload-model-count 参数可灵活配置并发实例，满足多场技术会议同时转写的高并发需求。
1.6K11编辑于 2026-01-22
从转写准度率到场景适配：2025 年 10 款语音文字软件测评，谁是效率外挂首选？
1、核心功能：三位一体的全方位解决方案语音记录：远超基础录音。它支持录音、导入文件、智能区分说话人，甚至还能录屏，让你在记录线上会议时不错过任何PPT细节。语音转文字：核心技术强悍。不仅通用转写准确率高，更支持视频转文字和方言转写（如粤语、四川话、河南话等），应对各种复杂场景无压力。AI能力：这才是其降维打击的核心。 2、腾讯会议本身作为一款强大的会议软件，附带的语音转文字功能可在会议过程中实时转写。但功能相对基础，在转写准确率、专业领域适配以及文档处理等方面，与讯飞听见有一定差距。 3、网易见外工作台支持语音转写，能满足一些基础需求。不过文件大小和格式限制较多，转写速度相对较慢，在复杂场景下的准确率也有待提高。适用于对转写要求不高，偶尔使用的用户。其实时语音转录功能非常强大，能区分说话人，并支持在转录中插入评论、突出显示重点。特别适合线上会议的实时记录，会后自动生成摘要，是许多远程工作者的首选。
1.2K10编辑于 2025-08-26
来自专栏刘旷专栏
录音转写降噪，iFLYBUDS Pro为在线会议而生
iFLYBUDS Pro的通话录音模式可以支持常规电话和网络电话，并且能够兼容微信语音、腾讯会议、钉钉语言、Zoom、Teams等语音及会议通话软件。我在突然接到语音电话的时候，就会长按耳机的感应区，直接进入耳机录音状态。令人惊喜的是，iFLYBUDS Pro还是两个“小U盘”，在不打开APP的情况，左右耳机分别可以保存2小时的录音内容。五、录音转写更高效在整理录音内容时，一些录音内容里夹杂着让人听不懂的方言、外语等语言，逐字逐句地听长段的录音又浪费时间，而iFLYBUDS Pro则保留了讯飞智能硬件的差异化优势——转写翻译功能。录音功能是转写翻译功能的基础，只需要在iFLYBUDS Pro进行录音工作前选择好转写语言，iFLYBUDS Pro就会一边录音，一边转写。 iFLYBUDS Pro不仅能在录音的时候将内容实时转写成文，还会根据我们的声纹对说话人进行区分，并对通话录音的转写内容进行智能排版。
1.6K20编辑于 2022-05-26
来自专栏TSINGSEE青犀视频
LiveKit架构下，WebRTChlsm3u8语音转写STT大模型EasyDSS全场景音视频技术革新
EasyDSS直播点播视频会议平台精准洞察行业痛点，以LiveKit为底层核心引擎重构架构，融合语音转写STT、实时字幕、AI大模型智能摘要等核心技术，打破单一功能壁垒，构建起"直播+点播+会议"三合一的全场景音视频服务体系在此基础上，EasyDSS将语音转写STT、实时字幕与AI大模型智能摘要技术深度融入架构体系，形成"实时互动+智能解析"的全链路服务能力。 STT语音转写技术实现了毫秒级语音到文本的转换，准确率高达98%以上，可精准捕捉多人发言的细节的同时，过滤环境噪音与口音干扰；实时字幕功能则将转写文本同步呈现在会议或直播界面，实现"音画同步"，打破了听力障碍与语言沟通的壁垒
38110编辑于 2026-03-12
来自专栏刘旷专栏
讯飞听见SaaS服务迈入全新时代
智能语音转写乘风起随着智能语音产品及服务在办公、学习、行业交流等多个场景中的应用越来越广泛，智能语音转写市场整体规模持续上涨，其发展潜力也在逐一释放。而智能语音转写行业之所以能一直保持快速发展势头，则与三大利好不无关系。在政策上，国家有关智能语音、语音自动转写、语音同步转录等相关政策的不断出台，使得智能语音转写赛道不断升温。据悉，易观发布的《中国智能语音转写工具行业洞察2021》报告显示，讯飞听见的转写产品品牌知名度位列榜首；艾瑞咨询刚刚发布的2022《智能语音转写行业研究报告》中也显示，讯飞听见在智能语音转写SaaS产品竞争格局中被纳入了第一梯队的阵营如今，智能语音转写翻译产品的普及推广已经是大势所趋，而在整个智能语音转写市场占据主流厂商地位的讯飞听见，则对整个行业都具有借鉴意义。随着智能语音转写的技术的不断突破、功能的持续丰富、场景更加泛化，在语音转写行业已经走在前列的讯飞听见，未来将会给市场和用户带来更多更大的惊喜，也将推动整个语音转写SaaS服务迈入一个全新的时代。
1.5K30编辑于 2022-12-23
来自专栏信息安全小学生
【玩转腾讯云】语音转文字，轻松写笔记
想把语音转换成文字，但是转写太耗时了，稍不留神又要倒回去从新听，每天好累！怎么办？试试腾讯云的语音转文字功能呀！被微信、王者荣耀、腾讯视频等大量内部业务使用，外部落地录音质检、会议实时转写、语音输入法等多个场景。什么时候会用到语音识别？对学生党来说，课堂内容的转写会用到语音识别，对行政党来说，领导的每次讲话也会用到语音转写。语音识别支持哪些形式？可以实时转写，也可以将录音文件转写。语音识别支持哪些语音？图片.png 进入小程序，使用语音识别，试一试识别中文【你好，世界】视频内容再试一试英文【哈喽，卧得】视频内容最后试一试粤语【磊吼，色盖】视频内容神不神奇~ 我们再试一下文件的转写以及接口的调用 "Word": "您" } ] } ], "ErrorMsg": "" } } } 至此，咱们的语音转写调用就完成啦
5.8K00发布于 2021-05-06
来自专栏TSINGSEE青犀视频
WebRTC语音转文字STTAI语言大模型重构EasyDSS视频会议
EasyDSS平台深度集成AI智能字幕、语音转写与AI会议助手（智能摘要）三大核心能力，以技术创新打破传统协作壁垒，重构会议与内容流转的全流程，让高效协作触手可及。 AI语音转写技术作为EasyDSS AI能力的基础支撑，彻底解决了传统语音内容"难以留存、无法检索"的难题。不同于市面上普通转写工具的卡顿、误判问题，EasyDSS搭载先进的语音识别算法，实现毫秒级实时转写，识别准确率高达98%以上，能够精准捕捉不同口音、不同语速的语音内容，无论是清晰的会议发言、还是略带嘈杂环境下的研讨交流 AI智能字幕则将语音转写技术的价值进一步延伸，实现"音视频内容+文字字幕"的同步呈现，打破信息传递的壁垒。在视频会议场景中，智能字幕能够实时同步显示发言内容，提升内容接收效率。 EasyDSS的AI能力并非孤立存在，而是形成了"转写-字幕-摘要"的全链路闭环，从语音内容的实时捕捉，到文字字幕的同步呈现，再到核心信息的智能提炼，全方位覆盖协作与学习场景的需求。
18710编辑于 2026-03-09
来自专栏职场办公
8 款主流语音转文字 App 测评：技术特点与实用场景解析
在多语言支持上，它覆盖 10 多种外语转写与互译，技术核心是 “语音识别 + 机器翻译双模型联动”：先通过语音识别模型将外语转写为文字，再调用机器翻译模型生成中文，同时保留原语言文本，最终实现双语对照。它的实时转写延迟能控制在 0.5 秒内，接近 “语音与文字同步”，技术核心是 “流式语音识别模型”—— 传统语音识别需要等一段语音结束后再处理，而流式模型能将语音拆成 “毫秒级片段”，边接收语音边处理， Google Keep：轻量化语音转写与生态联动的 “简单记录工具”Google Keep 是谷歌生态下的笔记工具，语音转写是附加功能，核心技术是 “轻量化在线语音识别模型”，适合需要快速记录（如通勤时的灵感它的转写流程简单：点击录音按钮，语音结束后自动转写，技术上是 “极简流程设计”—— 省略了复杂的设置（如语言切换、格式选择），默认调用谷歌的在线语音识别模型，适合小白用户。 “图片识别文字（OCR）+ 语音转写” 的整合，技术上是 “OCR 模型 + 语音识别模型联动”：拍摄图片后，OCR 模型识别图片中的文字（如会议议程表），转写语音时，将 OCR 文本与语音转写文本合并到同一份笔记中
1.8K10编辑于 2025-09-03
讯飞听见技术解析：从语音识别引擎到开发者生态的全链路实践
在智能交互技术体系中，语音转写作为连接语音信号与文本数据的核心环节，其精度与效率直接决定了下游应用的体验上限。本文将以该系统为技术样本，从原理、实现、实践三个维度拆解企业级语音转写的核心架构，为云原生场景开发提供参考。语音识别引擎的核心技术突破语音转写系统的技术链路可分为声学特征提取、语音建模、语言解码三大模块。语音转写技术的发展趋势多模态融合：讯飞听见已启动语音 + 文本 + 图像的多模态研究，通过 PPT 内容、视频字幕辅助转写，当前复杂场景准确率提升至 95%，未来将适配更多跨模态交互场景；低资源语言适配对于云原生开发者而言，其开放的 API 生态、全终端 SDK 与场景化解决方案，既能提供高性能的转写能力基座，也能降低语音技术的应用门槛，助力构建下一代智能语音应用。
1.1K10编辑于 2025-09-18
来自专栏职场办公
10 款主流 AI 纪要 App 深度评测：帮你找到最趁手的记录神器
基于用户反馈，计算使用 App 后人均每月工作效率提升幅度与实际支付成本的比值10 款主流 AI 纪要 App 深度评测讯飞听见：语音转写的 “老牌强者”核心定位：背靠科大讯飞长达 15 年深厚的语音技术积淀，讯飞听见主打 “高准确率语音转写 + 多语言及方言广泛支持”，堪称一款能适配全场景信息记录需求的 “全能型选手”。关键表现语音转写准确率：依据官方公开数据，讯飞听见普通话转写准确率高达 98%。记者群体：在外出采访时，使用讯飞听见边录边转，采访结束后，记者可直接基于转写文字稿进行新闻编辑，软件还支持点击文字快速定位回听对应语音片段，方便核实信息，大幅提升新闻稿件产出效率。适合人群：对语音转写准确率要求极高，日常工作、学习中频繁涉及方言交流或跨国沟通的用户，例如跨国企业员工、跨地区协作团队成员、习惯使用方言交流的人群。
3.7K10编辑于 2025-09-08
来自专栏办公专栏
2025年5款语音识别转文字工具深度实测：真实体验与专业解读
差异化价值：凭借稳健的技术底层架构，用户在长时间会议或复杂语音环境中仍能享受高准确率的转写体验。功能丰富度：支持音视频文件导入转写、智能生成摘要和关键词提取，还能输出会议热词分析报告。2. 百度智能云语音 — 深度解析抗噪性能核心优势：抗噪能力稳定，对开发者友好场景实例：在咖啡厅或地铁等嘈杂环境中进行采访或录音时，百度智能云语音能够有效过滤背景噪声，生成高准确率的文本内容，让嘈杂场景下的语音转写依然可靠抗噪性能原理：依托百度强大的语音技术积累，提供端到端语音语言大模型、语音识别、大模型语音合成、大模型声音复刻等服务，实现高准确率、超自然的文字与语音转换效果。支持公有云部署和私有化部署，可广泛应用于智能语音交互、内容配音、语音播报等多个业务场景。技术机制：云端 ASR 结合抗噪声模型，支持大文件批量转写和低延迟实时转写。技术机制：基于 ASR 转写结果，叠加文本智能处理模块，包括断句优化、关键词提取、段落重组以及语义润色等功能。差异化价值：有效解决了传统转写后需要大量二次编辑的痛点。
1.9K10编辑于 2025-08-22
来自专栏muller的测试分享
人工智能，应该如何测试？（五）ASR 效果测试介绍
什么是 ASRASR 是自动语音识别（Automatic Speech Recognition）的缩写，是一种将人的语音转换为文本的技术。这项技术涉及声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等多个学科。ASR 系统的性能受到识别词汇表的大小和语音的复杂性、语音信号的质量、单个说话人或多个说话人以及硬件等因素的影响。根据语音的输入方式，可以分为孤立词、连接词和连续语音系统等。此外，还可以根据输入语音的发音方式（如朗读式和口语式）、方言背景（如普通话、方言背景普通话和方言语音识别系统）以及情感状态（如中性语音和情感语音识别系统）进行分类。这里还是只给一些规范上的样例：转写内容与实际发音内容一致，转写的字正确率要达到 99%；但是，对于因为口音或者个人习惯导致的音变，仍按照原内容转写。
1.3K11编辑于 2024-04-07
来自专栏职场办公
语音识别技术驱动的高效生产力工具：从技术原理到场景落地
这得益于其 CTC+Attention 解码结合策略，在保证转写速度的同时，提升了对复杂环境的鲁棒性。在跨境会议中，能够对中英文混合语音自动识别并生成双语文字稿；在外语课堂上，英语或日语的听力录音可直接转写为文字，助力学生复习；地方媒体进行方言访谈时，该方案也能准确转写，确保信息完整。采用该方案后，会议过程中的语音能够实时转写，转写文本自动关联原始录音，支持点击文本跳转至对应语音片段。在会后，参会人员可以快速通过转写文本回溯会议决策细节，避免了因记忆偏差导致的执行失误。此外，在外语教学中，该方案的多语言识别功能可以辅助教师进行听力教学，将外语听力材料转写为文字，方便学生理解和学习。（三）媒体创作场景媒体工作者在采访、节目制作等过程中，需要处理大量的语音内容。在采访场景中，记者使用该方案对采访对象的语音进行实时转写，能够快速记录采访内容，避免了因手动记录不及时而遗漏重要信息。
43110编辑于 2025-09-17
来自专栏人工智能
语音识别——ANN加餐
基本分类第三代语音识别框架口语化和篇章语言模型技术远场语音识别问题及其解决方案语音转写后处理语音转写个性化方案（未来）我就非常粗暴的简单介绍： ———— 语音识别基本原理 ———— 语音识别是门多学科的技术这也就是大数据下语音翻译技术有了长足进步的一方面原因。 ———— 语音转写技术路线 ———— 有了上述声学建模和语言建模的基础，我们来说一下最常接触到的“语音转写”。语音转写就是把语音转为文字。语音转写分为：语音听写和语音转写两大类。按照学术界的分类方法：语音听写（Dictation）：实时地语音识别语音转写（Transcription）：非实时地语音识别按照工业界的分类方法：语音听写：面向人机对话的系统，比如语音输入法语音转写麦克风阵列：麦克风阵列 + 深度学习的解决方式：在上述的方式后，即可解决语音转写。
7.4K101发布于 2018-01-03
来自专栏新智元
不止于听！试试在元宇宙打工，讯飞听见发布智慧办公服务平台
在大会的现场，讯飞听见同传为大会提供了实时语音转写翻译服务，为远程观看的观众提供更贴心的双语字幕。来源：易观分析的《中国智能语音转写工具行业洞察2021》报告在语音识别和智能语音领域，科大讯飞一直处于全球领先的行业地位。对于智能语音领域来说，目前语音转写服务是重要的一环。来源：易观分析的《中国智能语音转写工具行业洞察2021》报告讯飞听见作为科大讯飞语音转写及翻译的重要业务承接，核心功能就是语音转文字和翻译，与其他类似竞品相比，有很多独有的功能，更加考虑到用户需求的方方面面点击「阅读原文」，下载讯飞听见APP，感受AI语音转写的强大。
1.3K10编辑于 2023-05-22
医疗场景中语音转文字工具的技术方案选型
由于医学术语的专业性和精确性要求较高，语音转文字技术在这一领域具有重要应用价值。本文将分析不同技术方案在医疗环境下的适配性，并探讨关键技术指标。语音处理技术基础架构医疗场景下的语音转写需要处理专业术语识别、多说话人分离和噪声抑制等核心问题。 y_enhanced=enhance_speech(y_denoised,sr)returny_enhanced,sr```专业级语音转写方案分析在医疗专业场景中，某款语音处理工具采用了深度神经网络架构，支持实时转写和多格式音视频文件处理。对比方案技术特性其他技术方案各有特点：有的专注于英语环境下的实时转写，界面设计简洁；有的提供全面的基础转写功能，支持常见音频格式；还有的侧重移动端应用，在录音质量方面表现突出。
23210编辑于 2025-12-12

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

如何提升语音转写准确率？

语音转录·文理贯通：AI 智能语音转写系统重塑语音数据处理新范式

语音识别基础学习与录音笔实时转写测试

深度全序列卷积神经网络克服LSTM缺陷，成功用于语音转写

开源神器WhisperLiveKit：本地部署+实时语音转写，会议纪要15分钟搞定

从转写准度率到场景适配：2025 年 10 款语音文字软件测评，谁是效率外挂首选？

录音转写降噪，iFLYBUDS Pro为在线会议而生

LiveKit架构下，WebRTChlsm3u8语音转写STT大模型EasyDSS全场景音视频技术革新

讯飞听见SaaS服务迈入全新时代

【玩转腾讯云】语音转文字，轻松写笔记

WebRTC语音转文字STTAI语言大模型重构EasyDSS视频会议

8 款主流语音转文字 App 测评：技术特点与实用场景解析

讯飞听见技术解析：从语音识别引擎到开发者生态的全链路实践

10 款主流 AI 纪要 App 深度评测：帮你找到最趁手的记录神器

2025年5款语音识别转文字工具深度实测：真实体验与专业解读

人工智能，应该如何测试？（五）ASR 效果测试介绍

语音识别技术驱动的高效生产力工具：从技术原理到场景落地

语音识别——ANN加餐

不止于听！试试在元宇宙打工，讯飞听见发布智慧办公服务平台

医疗场景中语音转文字工具的技术方案选型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐