首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏嵌入式Linux系统开发

    音视频开发专业词汇总结音视频处理流程

    音视频开发岗专业词汇总结,这些词汇大量出现在音视频相关的代码中: 缩略语 英文全名 中文解释 SDK Software development 媒体处理平台 ISP Image Signal Pipeline 图像信号处理 LDC Lens Distortion Correction 镜头畸变校正 AI 海思媒体处理平台的主要内部处理流程如图所示,主要分为视频输入(VI)、视频处理(VPSS)、视频编码(VENC)、视频解码(VDEC)、视频输出(VO)、视频拼接(AVS)、音频输入(AI)、音频输出( AI 模块捕获音频数据,然后 AENC 模块支持按多种音频协议对其进行编码,最后输出音频码流。

    1.7K20发布于 2021-05-28
  • 来自专栏DotNet NB && CloudNative

    C# FFmpeg 音视频开发总结

    5、写此文章时才发现CaptureManager这个2023年4月发布的非常简便好用的基于D3D封装的音视频库,它的官方样例非常丰富,能实现很多功能。 对于一些概念性的东西,我是翻阅硕博论文(一般都有总结这些)。 C#使用FFmpeg需要注意什么?

    1.5K50编辑于 2023-08-30
  • 来自专栏嵌入式开发圈

    音视频相关技术基础知识总结

    前阵子写了很多笔记,由于忙于研究生课程学习,故很少有时间整理笔记分享到公众号上,今天整理的笔记是我之前学习音视频技术相关的笔记整理。 ffmpeg:音视频转码、转换器 ffplay:简单的音视频播放器 ffserver:流媒体服务器 ffprobe:简单的多媒体码流分析器 (2)SDK 提供开发者使用的SDK,我们可以根据自己的需求使用这些库开发自己的应用程序 ,这些库主要有: libavcodec:包含音视频编码器和解码器 libavutil:包含多媒体应用常用的简化编程的工具,如随机数生成器、数据结构、数学函数等功能 libavformat:包含多种多媒体容器格式的封装 、解封装工具 libavfilter:包含多媒体处理常用的滤镜功能 libavdevice:用于音视频数据采集和渲染等功能的设备相关 libswscale:用于图像缩放和色彩空间和像素格式转换功能 libswresample

    2.1K41编辑于 2022-03-24
  • 来自专栏智媒黑板报

    音视频封装小总结(PS TS 和FLV)

    里面包含了对国标流的PS流处理方法,同时解析了HLS的TS文件格式以及常用的FLV文件,更详细内容可以看以前的几篇文章: 音视频封装:FLV格式详解和打包H264、AAC方案(上) 音视频封装:FLV 格式详解和打包H264、AAC方案(下) 音视频解封装:MP4核心Box详解及H264&AAC打包方案 音视频封装:MPTG2-TS 媒体封装实例解析和说明 MPEG-PS和MPTG-TS 媒体封装实例解析和说明

    4K20发布于 2020-11-12
  • 来自专栏运维开发王义杰

    AI: 机器学习算法总结

    引言 机器学习(Machine Learning)是人工智能(Artificial Intelligence, AI)的一个重要分支,通过从数据中自动学习和改进,来实现复杂任务的自动化。

    81110编辑于 2024-06-25
  • 来自专栏腾讯云技术沙龙

    孙祥学:音视频AI技术落地实践

    6月29日,音视频及融合通信技术技术沙龙圆满落幕。 本期沙龙特邀请腾讯云技术专家分享关于最新的低延迟技术、全新的商业直播方案等话题,针对腾讯云音视频及融合通信产品的技术全面剖析,为大家带来纯干货的技术分享。 我今天分享的内容有四块,第一块是视频+AI能产生什么;第二块是想重点介绍智眸这款视频+AI的产品;第三块是智眸的应用场景,第四块是官网的一些可用资源。 视频+AI能产生什么 第一个视频+AI的尝试是极速高清,像斗鱼、虎牙、央视等目前已经接入在使用的一款产品。极速高清是在不降低视频质量情况下降低视频码率,也就是降带宽,降成本。它跟AI的结合点在哪呢? 幻灯片8.PNG 智能媒体生产平台,包括基础服务层、AI引擎层、媒体处理层、基础应用层、基础产品层。

    4.5K42发布于 2019-07-03
  • 腾讯云实时音视频Chat SDK:重塑AI实时对话体验的音视频利器

    ##【摘要】 在AI技术飞速发展的2025年,实时音视频能力已成为人机交互的核心支柱。 腾讯云实时音视频Chat SDK以其全球覆盖的低延时传输网络和灵活的AI大模型集成能力,为开发者提供了一站式的音视频互动解决方案。 二、核心功能亮点 AI实时对话集成undefined支持灵活接入多家AI大模型,结合TRTC的实时音频传输与AI降噪技术,实现高拟真度的双向音视频交互。 音视频时长38万分钟/月+26万分钟/月录制时长+1万分钟/月AI时长 AI实时字幕、弱网优化、小程序加速 AI对话、在线教育 旗舰版Plus 8000元/月 音视频时长140万分钟/月+60万分钟/ 通过变声/虚拟背景功能打造沉浸式AI伴侣互动体验 在线教育:低延时互动课堂支持万人同时连麦,配合AI降噪保障通话清晰度 【结语】 腾讯云实时音视频Chat SDK以超低延迟、全平台互通和AI深度融合能力

    54210编辑于 2025-10-14
  • 来自专栏AI科技大本营的专栏

    音视频技术看AI的机会和挑战

    另一件事在2018年初,现场聆听了蒋涛关于AI的分享,其中介绍了在Google内部,AI已经在大部分产品上应用,包括Youtube。 事实上,从2017年第一届LiveVideoStackCon音视频技术大会开始,AI主题就没有缺席过,但直到2019年,AI音视频方面真正的落地应用才陆陆续续在LiveVideoStackCon上体现 此外,AI还可以帮助影视策划制作与营销,通过分析剧本类型、导演、明星阵容预测作品的流程程度,从而在后期推广、广告合作方面更加精准。 以上粗浅聊了聊AI音视频领域的具体应用,仅仅是冰山一角。 在8月23-24日的LiveVideoStackCon 2019北京音视频技术大会上,有许多我非常期待的AI相关的话题,作为大会主编,每一个讲师都是我亲自甄选和沟通,并参考各个专题出品人的建议。 声纹识别与防录音重放攻击》 清华-得意音通声纹处理联合实验室 博士生 程星亮 《多模视角下的内容理解算法与应用》 快手 多媒体内容理解部负责人 李岩 《音频指纹技术在流媒体音乐平台的应用》 网易云音乐 音视频实验室负责人

    74710发布于 2019-08-16
  • 来自专栏音视频技术

    音视频技术看AI的机会和挑战

    多媒体搞AI,还有比这更靠谱的? 文 / 包研 LiveVideoStack主编 我关注AI完全是被动的,直到两件事改变了我对AI的看法。第一件发生在2017年5月,AlphaGo以3比0战胜柯洁。 事实上,从2017年第一届LiveVideoStackCon音视频技术大会开始,AI主题就没有缺席过,但直到2019年,AI音视频方面真正的落地应用才陆陆续续在LiveVideoStackCon上体现 此外,AI还可以帮助影视策划制作与营销,通过分析剧本类型、导演、明星阵容预测作品的流程程度,从而在后期推广、广告合作方面更加精准。 以上粗浅聊了聊AI音视频领域的具体应用,仅仅是冰山一角。 在8月23-24日的LiveVideoStackCon 2019北京音视频技术大会上,有许多我非常期待的AI相关的话题,作为大会主编,每一个讲师都是我亲自甄选和沟通,并参考各个专题出品人的建议。 声纹识别与防录音重放攻击》 清华-得意音通声纹处理联合实验室 博士生 程星亮 《多模视角下的内容理解算法与应用》 快手 多媒体内容理解部负责人 李岩 《音频指纹技术在流媒体音乐平台的应用》 网易云音乐 音视频实验室负责人

    1.1K20发布于 2019-08-16
  • 腾讯云音视频对话式AI解决方案概要

    一、产品定位与核心亮点 技术定义:腾讯云音视频对话式AI解决方案是具备实时互动能力的对话式AI,能够精准理解用户意图并和用户进行语音互动,提供丰富的情感价值,为用户带来更真实和个性化的社交娱乐体验(据原文 核心技术属性:实时音视频互动、语音意图理解、多模态融合(STT/TTS/LLM);商业差异化卖点为超低延迟通信、全场景适配、无缝集成第三方模型、高兼容性,助力客户快速构建类真人对话体验。 降噪引擎,提升语音识别准确率; 超低延迟通信:全球范围音视频传输端到端延迟<300ms,对话延迟<1000ms,确保LLM及时处理用户音视频数据; 高真实性:全球部署,端到端延迟<300ms,全部对话环节延迟 客户名称:某社交娱乐APP 背景:面临新玩法缺乏、文字型AI互动性不足等挑战。 解决方案:采用TRTC AI一体化解决方案,引入语音对话式AI提升实时互动性,帮助用户发现更合适交友对象。 成效:提升用户体验的趣味性及付费意愿;核心技术支撑为TRTC超低延迟通信(全球音视频传输端到端延迟<300ms,对话延迟<1000ms,近似人类自然对话响应时间)。

    16510编辑于 2026-04-04
  • 腾讯云音视频对话式AI解决方案概要

    一、产品定位与核心亮点 腾讯云音视频对话式AI解决方案基于TRTC(腾讯实时音视频)技术,提供超低延迟通信能力与端到端对话式AI框架,支持客户快速集成自有大语言模型(LLM)和语音合成(TTS)模块。 数字物流平台 受众:物流企业 痛点:人工客服成本高、效率低 解决方案:AI智能客服实现多轮通话互动 2. 社交娱乐应用 受众:出海社交娱乐平台 痛点:文字互动性不足、新玩法匮乏 解决方案:语音对话式AI提升用户匹配效率与付费意愿 3. 其他场景 呼叫中心(AI客服/销售顾问) 高效办公(语音命令控制应用) 医疗辅助(远程诊断与咨询) 三、应用框架与核心功能 功能框架 客户端:音频采集/播放、AI降噪、回声消除 服务器端 :STT识别、AI转控、LLM/TTS模型通道对接 硬核指标 指标类型 数值 来源 音视频延迟 端到端<300ms 产品技术文档 对话延迟 全环节<1000ms 数字物流案例 STT语言支持 130

    19110编辑于 2026-04-01
  • 腾讯云音视频对话式AI解决方案概要

    一、产品定位与核心亮点 技术定义:腾讯云音视频对话式AI解决方案是基于TRTC(实时音视频)技术的实时互动对话式AI系统,整合STT(语音转文字)、智能打断、模型通道等核心功能,支持客户接入通用或定制LLM 成效:音视频端到端延迟300ms以下,全部环节延迟最低1s,实现类真人对话效果;支持全国23种方言精准STT识别;机器人智能打断灵敏度小于1s,配合AI降噪引擎提升语音识别准确率;All In One集成方案轻量化对接 ,助力快速上线;有效降低运营成本并提升服务效率(数据来源:腾讯云音视频对话式AI解决方案官方资料)。 20000种设备型号;提升用户体验趣味性及付费意愿(数据来源:腾讯云音视频对话式AI解决方案官方资料)。 数据来源:腾讯云音视频对话式AI解决方案官方资料(含客户场景案例、产品介绍、方案亮点等内容)。

    12510编辑于 2026-04-05
  • 腾讯云音视频对话式AI解决方案概要

    一、产品定位与核心亮点 技术定义:基于TRTC(实时音视频)技术的对话式AI解决方案,整合STT(语音转文字)、智能打断、模型通道、AI降噪引擎等功能,支持客户自有或定制LLM(大语言模型)与TTS(文字转语音 核心技术属性:超低延迟实时互动、多模态(音视频)处理能力、第三方模型无缝集成。 undefined数据来源:腾讯云音视频对话式AI解决方案 产品优势 高可用性:音视频端到端延迟300ms以下,全部环节延迟最低1s,实现类真人对话效果。 全球部署:支持全球范围音视频传输,确保超低延迟。 第三方模型集成优化:作为行业领先RTC厂商,搭建性能最优、延时最低对接通道,用户仅需配置账户凭证即可实现快速低延迟对话式AI体验。 五、总结 腾讯云音视频对话式AI解决方案以TRTC为核心,通过超低延迟、高兼容、精准识别及灵活集成能力,为社交娱乐、呼叫中心、高效办公、医疗辅助等场景提供实时互动AI服务,已助力某数字物流平台降本提效、

    21730编辑于 2026-04-06
  • 来自专栏音视频咖

    AI in Game,大模型能力与实时音视频技术融合,交出AI应用新答卷

    在实现音视频数据高效采集、处理、传输的基础上,GME AI实时对话解决方案叠加了智能降噪、智能打断、上下文管理等游戏场景所需的核心能力,只需少量开发就可快速实现全开麦的AI实时语音交互,方便游戏行业开发者快速将 、连接池等机制,全球端到端音视频传输延时可控制在300ms内,AI对话全链路总延迟低于1000ms。 基于真实游戏场景优化 全开麦自由交流,AI对话媲美真人 利用回声消除、噪声抑制等专利算法,强力抑制键盘声、鼠标声等游戏场景常见噪音。引入全新降噪引擎,输入端音视频实时AI降噪,提升ASR识别准确度。 腾讯云音视频音视频领域已有超过21年的技术积累,持续支持国内90%的音视频客户实现云上创新,独家具备腾讯云RT-ONE™全球网络,在此基础上,构建了业界最完整的 PaaS 产品家族,并通过腾讯云视立方 腾讯云音视频为全真互联时代,提供坚实的数字化助力。

    1.6K10编辑于 2025-05-21
  • 来自专栏Dance with GenAI

    AI网络爬虫:批量爬取抖音视频搜索结果

    任务:批量爬取抖音视频的搜索结果内容,包括视频标题,视频地址和视频创作者等信息。

    1.2K10编辑于 2024-06-24
  • 腾讯云音视频对话式AI解决方案概要

    核心技术属性:基于TRTC(实时音视频)技术,集成STT(语音转文字)、智能打断、模型通道(支持通用/定制LLM与TTS模型对接),实现超低延迟实时对话。 ; 实时互动AI服务:智能打断、STT、LLM/TTS对接、AI转控、AI降噪引擎; TRTC Cloud支撑云端能力。 硬核指标 延迟:音视频端到端延迟300ms以下,全部对话环节延迟最低1s(某数字流平台案例)/保持在1000ms以下(某社交娱乐APP案例); 打断灵敏度:小于1s; STT支持:全国23种方言 产品优势 逐段提取原文优势点(加粗标注核心能力): 高可用性:音视频端到端延迟300ms以下,全部环节延迟最低1s,实现类真人对话效果(数据来源:某数字流平台案例); 高灵活性:符合OpenAI 成效:全球范围音视频传输端到端延迟低于300ms,对话延迟保持在1000ms以下,实现流畅自然互动,帮助用户发现合适交友对象,提升用户体验趣味性及付费意愿(数据来源:某社交娱乐APP案例)。

    29140编辑于 2026-04-06
  • 腾讯云音视频对话式 AI 解决方案概要

    一、 产品定位与核心亮点 腾讯云音视频对话式 AI 解决方案 是一款基于 TRTC(腾讯实时音视频)技术的 All In One 集成方案。 功能框架 该方案采用“客户端 SDK + 实时互动 AI 服务”的架构: 客户端 (APP/IoT): 集成 TRTC SDK,负责音频采集播放、AI 回声消除、AI 降噪及关键词唤醒。 传输层: 利用 TRTC 全球传输网络进行音视频数据的低延迟传输。 服务端 (AI Services): 音频处理: 包含 AI 降噪、AI VAD(语音活动检测)、抽帧截图、智能打断及背景音处理。 硬核指标 端到端延迟: 音视频传输端到端延迟低于 300ms。 对话响应延迟: 全部对话环节(ASR+LLM+TTS+网络)总延迟控制在 1000ms (1s) 以内。 某社交娱乐APP 背景: 一款出海社交娱乐产品,面临新玩法缺乏、传统文字型 AI 互动性不足、用户体验单调的挑战。 解决方案: 采用 TRTC AI 一体化解决方案。

    40110编辑于 2026-02-03
  • 腾讯云音视频对话式AI解决方案概要

    三、应用框架和功能介绍 · 功能框架 架构包含TRTC SDK(多平台支持)、实时互动AI服务、服务器端音频处理(AI降噪、回声消除、智能打断)、AI转控、STT/TTS模块、LLM集成通道,支持从音频采集播放到 AI处理的全流程闭环。 · 硬核指标 延迟:音视频端到端延迟300ms以下,全部环节延迟最低1s(数字物流案例),对话延迟1000ms以下(社交娱乐案例),全部对话环节延迟15秒以内(社交娱乐方案); 语言支持:精准STT · 产品优势 功能全面:提供STT、智能打断与模型通道,客户仅需准备LLM和TTS模型即可创建流畅对话; 高可用性:音视频端到端延迟300ms以下,全部环节延迟最低1s,实现类真人对话效果; 高灵活性 无缝对接客户自有LLM; 精准语言识别:支持23种方言、130种海外语言及四种指定语言模糊识别; 快速上线:All In One集成方案,轻量化对接助力业务快速上线; 超低延迟通信:全球部署确保音视频端到端延迟

    15510编辑于 2026-04-03
  • 来自专栏大数据及人工智能

    浅谈AI机器学习及实践总结

    train_test_split X_train,X_test,y_train,y_test = train_test_split(X,y,test_size=0.2,random_state=0) 收集数据和预处理总结 模型上线流程主要是,先离线把模型序列化存储到文件系统,Tensorflow Serving 把模型文件载入到模型服务器,还原模型推断过程,对外以 HTTP 接口或 gRPC 接口的方式提供模型服务 总结 本文首先介绍了机器学习,了解了机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术,并对机器学习的分类以及深度学习做了总结, 其次,介绍了怎么利用 本文参考从零开始学习机器学习,加入自己的理解和相关内容,充其量就是一个入门的总结,整个机器学习涉及到许多内容,不仅仅是算法而且还有大量AI数据工程、后端技术栈,要想精通需要在后端技术、AI算法方面多下功夫

    2.4K52编辑于 2022-03-08
  • 来自专栏Pytorch实践

    AI与深度学习-2017年总结

    2017年AI界出现了很多进展,虽说没有像之前CNN、RNN、GAN出现时的转折,但也有很大的突破,特别是当Alpha Zero出现,强化学习的地位一下子飞升。 下面将从算法、模型、框架以及数据出发,简单总结一下2017年的动态。 No.1 算法 强化学习当属2017年的重头戏,从AlphaZero出现并战胜AlphaGo开始引爆。 No. 5 业界动态 李飞飞携手谷歌在中国北京建立谷歌中国区AI研究院;李航加入头条;Andrew离开百度;百度IDL又引入三位学术界大佬;多家公司的无人驾驶已经上路;谷歌的TPU已经在云平台可用;阿里部署无人超市等 当然还存在一些吹嘘过头的,例如IBM的沃森、以及医疗方面的AI助手等。

    960100发布于 2018-03-26
领券