音频 - 标签 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

首页标签音频

#音频

107 分钟的会议录音，免费转文字+自动标注说话人

勇哥AI笔记 9小时前2026-06-23 19:54:17

周末录了一段 107 分钟的音频，先是直接用 MiMo-v2.5-asr 的语音识别转成了文字。

400

当「提示词工程师」开始像制片人一样思考，Seedance 2.0 Skill OS 深度解析！

开源星探 11小时前2026-06-23 17:47:18

打开 Seedance 2.0 Skill OS 的 GitHub 仓库首页，第一眼就看到这句标语。

3500

音频信号的Token化方案：如何让声音进入大模型？

gavin1024 12小时前2026-06-23 17:10:04

音频信号的Token化是多模态大模型处理声音信息的基础环节。本文将介绍音频Token化的基本原理、主要技术路线，分析音频采样参数对模型理解效果的影响，以及VIT...

2700

多模态模型选型难？5个维度帮你做决策

hollyx 13小时前2026-06-23 15:55:04

并非所有多模态模型都支持音频理解。部分模型需要借助外部ASR工具将音频转为文本后，再进行理解。

1600

多模态融合的注意力机制详解

克劳德2048 13小时前2026-06-23 15:35:04

当扩展到多模态场景时，注意力机制需要处理来自不同模态（文本、图像、音频、视频）的信息。这些模态的数据在表现形式、特征空间和时序特性上存在差异，如何有效地在统一的...

1700

喜马拉雅自研AI音频模型：实现30万字长篇声音一致性与表演级情感演绎

IT前沿资讯站

腾讯科技（深圳）有限公司｜数据分析 (已认证)

13小时前2026-06-23 15:25:31

行业痛点：AI工具普及化加剧审美判断力稀缺性音频行业面临核心矛盾：AI技术能快速完成配音生成、格式转换等标准化任务，但关键审美决策环节仍需人工干预。通用TTS...

1600

多模态模型的上下文长度限制与优化方案

克劳德2048 14小时前2026-06-23 15:20:04

VITA的音频按12.5 Hz采样进入模型。较低的音频采样率有助于控制音频部分的Token消耗，从而在上下文长度限制下，保留更多的视觉信息空间。

1200

喜马拉雅AI有声：从“全自动代工”到“原子能力编排”的音频生产链重构

gawain2048

腾讯科技（深圳）有限公司｜市场研究 (已认证)

14小时前2026-06-23 15:16:21

为解决AI音频生产中“一键全自动”导致的同质化与商业化困境，喜马拉雅音剪AI重构了生产链，构建了“原子能力+关键判断”的人机共生工作流。依托自研高拟真音频大模型...

2700

VITA在腾讯TokenHub平台上怎么使用？

克劳德2048 15小时前2026-06-23 14:20:04

在腾讯云TokenHub平台上，VITA模型的调用名称为youtu-vita。VITA提供以下两个可用模型，用户可根据是否需要处理音频选择合适的模型：

1100

Insanely Fast Whisper：开源社区让音频转录速度提升19倍

用户11563501 15小时前2026-06-23 14:04:22

一个名为Insanely Fast Whisper的工具，将OpenAI Whisper的转录速度提升了19倍。原本需要31分钟处理的2.5小时音频，现在仅需9...

900

Gemma 4 来了：原生多模态，小尺寸匹敌千亿参数大模型

用户11563501 16小时前2026-06-23 13:08:47

这是Gemma系列第一次真正意义上的多模态。不只是图像，文本，还能处理视频。小模型（E2B、E4B）甚至支持音频。

800

视频结构化技术实战：如何自动生成视频分镜脚本？

hollyx 17小时前2026-06-23 12:05:04

摘要：视频结构化技术将非结构化视频转化为可计算的结构化数据，为自动生成分镜脚本提供技术基础。本文介绍视频结构化原理、VITA多模态理解模型的应用方法，帮助内容...

2800

内容平台的智能审核：多模态理解如何实现精准分级？

gavin1024 17小时前2026-06-23 11:40:10

内容分级管理需要基于多维度的评估标准，包括内容质量、美观度、相关度等多个方面。这些评估标准需要综合考虑图文、视频等多种类型的内容，以及内容中的画面、音频、文字等...

3500

直播电商的AI分析系统：实时理解主播+商品+互动

gavin1024 17小时前2026-06-23 11:35:12

VITA 3.0具备音频语义理解能力，无需借助外部ASR等工具，可直接处理语音识别、音频内容总结等任务。

1900

NovaSR：一个52KB的音频超分模型，把16kHz模糊音频变成48kHz清晰版

用户11563501 17小时前2026-06-23 11:33:07

最近，一个名为NovaSR的音频超分辨率模型开源。这个模型只有52KB大小，比一段3秒的音频文件还小，但功能却不简单：它能把模糊的16kHz音频增强成更清晰的4...

2600

LTX-2开源：首个能同时生成视频和音频的模型

用户11563501 17小时前2026-06-23 11:31:10

大多数视频模型是哑巴，大多数音频模型是瞎子。LTX-2今天开源了，它试图解决这个根本问题。

1900

1.5B参数！支持本地实时语音转录

用户11563501 17小时前2026-06-23 11:30:55

云端语音转录已经司空见惯，但完全离线的实时转录方案才刚刚成熟。Liquid AI发布的首个端到端音频基础模型LFM2-Audio-1.5B证明了一点：1.5B参...

2100

视频审核太耗时？AI自动理解让效率提升10倍

gavin1024 17小时前2026-06-23 11:25:04

在视频审核场景中，仅分析画面信息可能不足以全面判断视频内容。VITA能够同时理解视频的画面和音频内容，从而提供更完整的内容理解结果。例如，对于带有语音解说的视频...

2400

VITA 3.0全新升级：视频理解、音频理解、图文理解三合一

gavin1024 18小时前2026-06-23 11:15:04

VITA 3.0实现音视图文全模态统一理解，核心升级视频理解、音频理解、图文理解三项能力，为企业提供更强大的多模态内容理解服务。

3300

音频理解技术详解：AI"听懂"声音的原理

gavin1024 18小时前2026-06-23 11:05:00

音频理解技术使AI能够直接处理和理解声音内容。本文介绍音频理解的技术原理，对比传统ASR方案与直接音频理解方案的差异，并说明VITA多模态理解模型如何通过原生多...