首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏音视频技术修炼手册

    视频里的I、P、B是什么?

    什么是I、P、B?I:intra picture,内编码。 I特点:1)I是一个全压缩编码;2)解码时仅用I的数据就可重构完整图像;3)I描述了图像背景和运动主体的详情;4)I不需要参考其他画面而生成;5)I是P和B的参考(其质量直接影响到同组中以后各的质量 );6)I组GOP的基础(第一),在一组GOP中只有一个I;7)I不需要考虑运动矢量;8)I所占数据的信息量比较大。 I或P;4)P可以是其后面P的参考,也可以是其前后的B的参考;5)由于是差值传送,P的压缩比较高。 IDR也是I的一种,那么IDR与普通I有何区别呢?一个IDR之后的所有都不能引用该 IDR 之前的的内容;而对于普通的I,其后的P和B可以引用该普通I之前的其他I

    2.8K11编辑于 2024-11-14
  • 来自专栏Visual Codex

    视频编码的三种:I,B,P

    在视频压缩编码中,所有的被分成了三个种类,I,B和P,其实就是Intra-Prediction,Bi-prediction和Prediction。 顾名思义,就是内预测,双向预测以及(单向)预测。 (inter prediction),内预测的话就是在找参照块的时候,只在当前内寻找;而间预测的话,找参照块的时候会在相邻的之间去找相似块。 因此,基于上述所说, 如果说当前是只在当前内寻找参照块的话,那么该就是I 如果在已经编码的里面寻找参照块的话,那么它是P 如果既在已编码的里去寻找参照块,又在未来将要被编码的里去寻找参照块的话 ,那么该就是B

    2.9K20发布于 2021-02-24
  • 来自专栏腾讯IMWeb前端团队

    视频中的 I ,P ,B

    由于压缩处理的方式不同,视频中的画面就分为了不同的类别,其中包括:I 、P 、B 。I 是内部编码(也称为关键),P 是前向预测(前向参考),B 是双向内插(双向参考)。 简单地讲,I 是一个完整的画面,而 P 和 B 记录的是相对于 I 的变化。如果没有 I ,P 和 B 就无法解码。 I I (Intra coded frames):I 图像采用内编码方式,即只利用了单图像内的空间相关性,而没有利用时间相关性。 由于 I 不依赖其它,所以是随机存取的入点,同时是解码的基准。 I 主要用于视频播放的初始化,I 图像的压缩倍数相对较低。I 图像是周期性出现在图像序列中的,出现频率可由编码器选择。 P 是差别,P 没有完整画面数据,只有与前一的画面差别的数据。 若 P 丢失了,则视频画面会出现花屏、马赛克等现象。

    5.2K20编辑于 2022-06-29
  • 来自专栏AIGC 先锋科技

    英伟达 & MIT 提出 LongVILA ,从 8 到 1024 如何实现长视频理解的飞跃 ?

    LongVILA有效地将VILA的视频帧数从8扩展到1024,从2.00提高到3.26(满分5分),在1400(274k上下文长度)的视频中实现了99.5%的准确率,这在长视频领域的针刺麦田搜索任务中具有重要意义 在 1024 上训练的作者的 LongVILA 模型,在针锋相对的实验中实现了 99.5% 的准确率,在 1400 时的上下文长度,相当于 274k 个标记。 例如,Llama-3 8B模型使用具有8个键值头的关键-值注意力(GQA),限制了最大序列并行度为8。 左图的32 Baseline 模型在32后无法检索到正确的针。相比之下,在1024上训练的 LongVILA 模型(右图)在274k上下文长度上具有99.5%的准确率。 利用256的LongVILA-8B模型在整个性能上达到了50.5的总分。作者还对表6中第3阶段的和第4阶段的影响进行了消融实验。

    1.3K10编辑于 2024-08-27
  • 为什么叫

    ”这个词在中文里通常是“frame”的翻译,出现在计算机网络、音视频处理、操作系统等多个技术领域。它之所以叫“”,是因为它有“一整块结构化数据”的含义,像一张照片、一张画框,代表某个完整的单位。 在网络通信中:(Frame) 是数据链路层传输的基本单位,通常包括: 头(Header):比如目标地址、源地址 数据(Payload):实际传输的内容 尾(Trailer):比如校验信息(CRC ) 为什么叫? 在音视频中: 视频(Video Frame):一张静止图像,多个连在一起就是视频。 音频(Audio Frame):一小段音频数据。 同样的原因叫“”,因为每一是一个可以单独处理、播放的完整单元。总结一句话: (Frame)是指一组结构完整、边界清晰、可以独立传输或处理的数据单位。

    68110编辑于 2025-08-26
  • 来自专栏人人都是极客

    音频、视频及其同步

    For Layer I slot is 32 bits long, for Layer II and Layer III slot is 8 bits long. (SampleSize = 384) 单位:byte 2FrameLengthInBytes = SampleSize / 8 * BitRate / SampleRate + Padding * 4 SampleRate + Padding * 4 4// Layer II & III(SampleSize = 1152) 单位:byte 5FrameLengthInBytes = SampleSize / 8 上面说的或图片通常会分为几个宏块(Macroblock),宏块是运动预测的基本单位,一个完整的图像通常被分为几个宏块,如 MPEG-2 和较早期的编解码器定义宏块都是 8×8 像素,以宏块为基准选择特定的预测类型 上图中显示的顺序为: 1I1、B2、B3、B4、P5、B6、B7、B8、P9、B10、B11、B12、I13 编解码顺序为: 1I1、P5、B2、B3、B4、P9、B6、B7、B8、I13、B10、B11

    5.3K10发布于 2021-02-08
  • 来自专栏音视频技术

    Easy Tech:什么是I、P和B

    I、P和B Easy-Tech #002# 在本篇文章中,我们将学习I、P和B的工作原理以及它们的用途。 好,我们先从现代视频压缩中最基本的概念开始——内预测和间预测。 现在,看完对内预测和间预测的快速介绍,让我们来学习I、P和B吧! 什么是I? 想要理解B的作用,我们需要先理解呈现/显示顺序和解码顺序的概念。 以I和P为例。如果你只使用这两种类型的,那么每一要么参考自身(I ),要么参考前一(P )。 参考B和非参考B 我们在上文中学过,B可以参考两或者多,通常,(根据其位置)一在前,一在后。我们也已知道,I不参考任何,P只参考前面的。 那么问题来了——任何都能使用B作为它的参考吗? 答案是肯定的。 如果B可以作为参考,它就被称为参考B。 如果B不用作参考,它便被称为非参考B

    4.2K20发布于 2021-09-23
  • 来自专栏韩曙亮的移动开发专栏

    【音视频原理】视频的 I P B 概念 ① ( 码率 帧率 分辨率 视频信息 | I - 内部编码 | I - 关键压缩法 | P - 前向预测 )

    of Pictures ) 的 第一 , 画面组 内 还有 P 和 B ; I 是 P 和 B 的 参考 ; I 的 质量 决定了 同组 P 和 B 解码后的 一系列 Frames ) " , 是 视频编码 中的一种 类型 , P 采用 前向预测编码方式 , 根据 本 ( P ) 与 相邻的 前一 ( I 或 P ) 的 不同点来压缩本帧数据 I 才能完成解码 ; P 只记录了 与 I 不同的内容 , 也就是 只有 与 I 的 差异部分 , 相同的部分没有 ; 解码 P , 必须 先解码 I ; I 解码完成后 , 将 I 与 P 合并 , 才能得到完整的 P ; 3、P 顺序不能颠倒 P 的 压缩效率较高 , 因为它 只 包含了 与参考 I 的差异数据 , 而不是完整的 画面帧数据 ; 由于 P 依赖于前面的 I 或 P , 因此在视频流中 , P必须按照正确的顺序进行传输和解码 , 否则会导致图像出现错误 ; 下图中 , P1 解码 依赖于 I , P2 解码 依赖于

    3K12编辑于 2024-01-24
  • 企业信ipad协议:语音通信零拷贝转码方案

    企业信ipad协议:语音通信零拷贝转码方案企业信在长连接通道内使用cmd=0x0602下发SilkV3语音,采样率固定16kHz,长20ms。为对接实时ASR,需在网关侧完成流式转码。 一、结构梳理解密后TLV序列如下:展开代码语言:TXTAI代码解释0x50duration2B0x51sampleRate2B//160000x52silkStreamNB//首字节=块长0x53aesKey16B buf.empty()){uint8_tlen=buf[0];decoder_decode(dec,buf+1,len,pcm);ring.write(pcm,320);//640Bbuf.remove_front 三、时间戳对齐利用头msgid高32位秒级UTC,与本地steady_clock偏差校正,ASR窗口误差<2ms,满足实时字幕需求。 展开代码语言:PythonAI代码解释#技术交流入口search="bot555666"通过官方外露字段实现零拷贝转码,既保持高吞吐,又降低端到端延迟,是企业信协议接口在语音场景下的关键优化路径。

    16910编辑于 2025-12-05
  • 来自专栏陶士涵的菜地

    布局

    xml version="1.0" encoding="utf-8"?

    95020发布于 2019-09-10
  • 来自专栏sofu456

    本文链接:https://blog.csdn.net/daoer_sofu/article/details/103409744 头和数据重合 头、长度、尾重合 接受缓冲区越大,重合概率越小,可以不考虑 发送和发送数据转义(转义和头相同的数据),避免头和数据重合 参考:https://www.amobbs.com/thread-5656551-1-1.html?

    1.1K20发布于 2019-12-10
  • 来自专栏音视频技术修炼手册

    结合编码引擎,从视频编解码角度对Sora浅析

    作为视频编码行业的领军企业,非常关注AIGC的行业动态,Sora发布后,产研团队从编解码角度对Sora样例视频做了一系列的分析。 · Sora采用的编码器:开源软编x264、硬编首先我们查看了所有视频的信息,发现均为H.264/AVC编码标准、帧率为30fps、分辨率最高为1080P的视频,且所用编码器输入的都是8bit YUV420 基于以上分析,海外团队联系了 VP of Research at OpenAl 。 OpenAI表示,在目前Sora的初始阶段,主要精力投入在大模型优化改善上,视频编解码并非高优任务,也期望未来与进行详细的技术交流和合作探讨。 同样也非常期待,当“AI生成”与“视频传播”深度链接以后,能够与OpenAI共同探讨AI与视频编码的结合,一起探索创新。

    41610编辑于 2024-10-29
  • 来自专栏素质云笔记

    视频处理基本技术(取、合

    目前暂时更新 1 逐拆解 def video2frame(videos_path,frames_save_path,time_interval): ''' :param videos_path : 视频的存放路径 :param frames_save_path: 视频切分成之后图片的保存路径 :param time_interval: 保存间隔 :return: ''' + "/frame%d.jpg" % count) # if count == 20: # break print(count) 其中time_interval一般取1 2 合成视频 il in im_list: im_name = il frame = cv2.imdecode(np.fromfile(im_name, dtype=np.uint8) print(im_name) # break videoWriter.release() # print('finish') im_list:要合成视频,图片列表

    1.4K30编辑于 2022-11-16
  • 来自专栏txp玩Linux

    音视频基础知识(4):I、P、B、GOP

    一、H264类型定义: 在H264的编码中,通常以三种不同类型的来表示传输的画面,分别是I、P、B。 P:P指的是前向参考,它需要参考前一的图片才能够正确把数据解码出来。 B:B指的是双向参考,它需要参考前一数据和后一数据才能够正常把数据解码出来。 但是它也有自身的缺点,那就是I的体积比较大,假设在传输视频中全部采用I去传输,那整个网络链路都承受着巨大的压力。所以,I就要配合P、B等进行数据的传输。 P:P又称之为前向参考,此的特点是需要参考前一的图像信息才可以正确把图像解码出来。P指的是这一和前一的差别,并通过将图像序列中已经编码后的冗余信息充分去除来压缩传输数据量的编码图像。 B:B也称之为双向参考,B的特点是以前面的(I或者P)或者后面的(也是I、P)作为参考找出B的预测值,并且取预测差值和预测矢量进行传送。

    8.8K32编辑于 2022-11-28
  • CAN总线如何处理超过8字节的数据

    然而,随着智能化程度的加深,工程师们常常面临一个经典的技术瓶颈:标准 CAN 2.0 协议规定,一数据的有效载荷最多只有 8 个字节。 硬件成本: 早期的微控制器资源有限,8 字节缓冲区易于硬件实现。因此,"8 字节限制”并非技术缺陷,而是特定历史时期为追求稳定性和实时性所做的权衡。 它在物理层和数据链路层进行了改进:数据长度扩展: 单帧数据长度从 8 字节提升至最高 64 字节。 其核心思想是“化整为零,再聚零为整”:将长数据拆分成多个符合 8 字节限制的小发送,接收端再按顺序组装。这就好比寄送一本厚书,邮局规定每个包裹只能装 8 页纸。 它定义了四种类型来管理数据流:单(Single Frame): 数据≤7 字节,直接发送。首(First Frame): 告知接收方总数据长度。

    30510编辑于 2026-02-27
  • 来自专栏项目文章

    计算机网络学习8:封装成、差错检测

    封装成 接收方的数据层如何从物理层交付的比特流中提取出一个个的呢? 头和尾的作用之一就是 定界。 例如PPP尾中就含有标志了。这样就可以一个个提取了。 但是并不是每一种数据链路层协议的都包含有定界的标志。 如MAC就没有这个格式。 接收方是怎么接受的呢? 物理层会在MAC前加上一个前导码。 同时mac还规定了 间间隔,所以不需要 尾的定界符。 透明传输 如果在上层交付的协议数据单元中,恰好也包含了这个flag尾的特定数值,那么接收方还能正确接受吗?答案是否定的。 接受方在接收到第一个flag定界标志时,认为是的开始。 当再次接收到时候,会误认结束接收了。如果数据链路层不采取措施来避免接收方对 是否结束的 误判,就不能称为 透明传输。

    26010编辑于 2024-06-07
  • 来自专栏VNF

    MPEG4视频中,I、p、B的判定(转载) By HKL,

    mpeg4的每一开头是固定的:00 00 01 b6,那么我们如何判断当前属于什么呢?在接下来的2bit,将会告诉我们答案。 注意:是2bit,不是byte,下面是各类型与2bit的对应关系:   00: I Frame   01: P Frame   10: B Frame  为了更好地说明,我们举几个例子,以下是16 进制显示的视频编码:   00 00 01 b6 10 34 78 97 09 87 06 57 87 …… I   00 00 01 b6 98 …… B 下面我们来分析一下为什么他们分别是I、P、B   0x10 = 0001 0000   0x50 = 0101 0000   0x96 = 1001 0100  大家看红色的2bit,再对照开头说的与2bit的对应关系,是不是符合了呢?

    2K10发布于 2020-07-22
  • 企业信ipad协议的结构设计与编码实践

    企业信ipad协议的核心技术特征,在于其将业务语义高度压缩于二进制结构的精巧设计。理解这一结构,是从“会用接口”迈向“理解协议”的关键门槛。 本文聚焦于企业信ipad协议的二进制格式,深入解析其头部定义、TLV编码规则与组包实践,为开发者提供可复现的技术参考。企业信ipad协议基于TCP长连接,采用私有二进制格式进行通信。 例如,一个包含发送方UIN、会话ID和消息内容的TLV序列可能如下组织:Type0x01:发送方UIN(8字节)Type0x02:会话ID(8字节)Type0x03:消息内容(可变长度)在加密层面,企业信 TLV打包voidtlv_push(std::vector<uint8_t>&buf,uint8_ttype,conststd::string&value){buf.push_back(type);uint16 结构的设计体现了企业信ipad协议对移动网络环境的深度优化:紧凑的头部减少每包开销,TLV编码压缩业务字段,流加密保证前向安全。

    10010编辑于 2026-03-10
  • 来自专栏音视频技术修炼手册

    Per-Title编码技术:自适应码率-画质-分辨率

    Per-Title编码技术Per-Title编码技术的目标,就是为每一个视频或视频片段量身定制,找到最优的凸包,精准锁定既满足画面清晰度要求,又符合主观观看敏感度标准的最低码率点,以达到节省带宽的目的 为了达到最佳质量的视频流,设计了两套不同的Per-Title优化算法:一是常规码率-分辨率选择的Per-Title优化算法;二是基于CRF(恒定质量因子)的Per-Title优化算法。 常规码率-分辨率选择的Per-Title优化算法与其他常规策略相比,的Per-Title优化算法在相同码率下能实现更高的视频质量,可以在最大码率限制下选择主观质量最优的分辨率,并且能够检测R-Q(码率 无论是追求极致的视频体验,还是严格控制传输成本,Per-Title优化算法都能给出最优的分辨率与CRF组合。相比固定CRF ,Per-Title有什么优势? 当然,除了Per-Title技术,也优化了多项前沿视频编码技术,如ROI(感兴趣区域)保护算法、智能AI前处理、基于内容的CAE感知编码等等......在视频编码技术的不断探索与研究优化,体现了对极致画质及高效传输的不懈追求

    47510编辑于 2024-10-24
  • 来自专栏OpenMMLab

    MMFlow :之间的追光者

    MMFlow 中包含了 8 种光流算法,从经典的FlowNet、FlowNet2、PWC-Net,到2020年的RAFT都有实现;另有 FlyingChairs、Sintel、KITTI 等 7 个光流数据集

    1.7K10编辑于 2022-01-18
领券