由于压缩处理的方式不同,视频中的画面帧就分为了不同的类别,其中包括:I 帧、P 帧、B 帧。I 帧是内部编码帧(也称为关键帧),P 帧是前向预测帧(前向参考帧),B 帧是双向内插帧(双向参考帧)。 简单地讲,I 帧是一个完整的画面,而 P 帧和 B 帧记录的是相对于 I 帧的变化。如果没有 I 帧,P 帧和 B 帧就无法解码。 B 帧 B 帧(Bi-directional predicted frames),B 帧图像采用双向时间预测,可以大大提高压缩倍数。 值得注意的是,由于 B 帧图像采用了未来帧作为参考,因此 MPEG-2 编码码流中图像帧的传输顺序和显示顺序是不同的。 解码也是按接收到的视频流去解,接收一帧解码一帧,解码顺序: IPBBB 而解码顺序和显示顺序不同,我们需要按 PTS 重新调整解码后的帧,即: I B B B P PTS: 12345 DTS:
什么是I帧、P帧、B帧?I帧:intra picture,帧内编码帧。 P帧:predictive-frame,前向预测编码帧。通过将图像序列中前面已编码帧的时间冗余信息充分去除来压缩传输数据量的编码图像,也称为预测帧。 * B帧需要参考其前一个I帧或者P帧及其后面的一个P帧来生成一张完整的视频画面,P帧与B帧去掉的是视频帧在时间维度上的冗余信息。 B帧特点:1)B帧是由前面的I或P帧和后面的P帧来进行预测的;2)B帧传送的是它与前面的I或P帧和后面的P帧之间的预测误差及运动矢量;3)B帧是双向预测编码帧;4)B帧压缩比最高,因为它只反映参考帧间运动主体的变化情况 在没有B帧的情况下,DTS和PTS的输出顺序是一样的。因为B帧的双向预测打乱了解码和显示的顺序,所以一旦存在B帧,PTS与DTS势必就会不同。
在视频压缩编码中,所有的帧被分成了三个种类,I帧,B帧和P帧,其实就是Intra-Prediction帧,Bi-prediction帧和Prediction帧。 顾名思义,就是帧内预测帧,双向预测帧以及(单向)预测帧。 (inter prediction),帧内预测的话就是在找参照块的时候,只在当前帧内寻找;而帧间预测的话,找参照块的时候会在相邻的帧之间去找相似块。 因此,基于上述所说, 如果说当前帧是只在当前帧内寻找参照块的话,那么该帧就是I帧 如果在已经编码的帧里面寻找参照块的话,那么它是P帧 如果既在已编码的帧里去寻找参照块,又在未来将要被编码的帧里去寻找参照块的话 ,那么该帧就是B帧。
B帧中的B就代表双向(Bi-Directional)。 参考B帧和非参考B帧 我们在上文中学过,B帧可以参考两帧或者多帧,通常,(根据其位置)一帧在前,一帧在后。我们也已知道,I帧不参考任何帧,P帧只参考前面的帧。 那么问题来了——任何帧都能使用B帧作为它的参考帧吗? 答案是肯定的。 如果B帧可以作为参考帧,它就被称为参考B帧。 如果B帧不用作参考帧,它便被称为非参考B帧。 与非参考B帧相比,大部分解码器在量化参考B帧时会获得更好的质量,从而减少传播损失。 在视频压缩/流化中使用I、P和B帧 在理解了I帧、P帧和B帧的工作原理之后,我们来解决一个重要问题:为什么要使用它们? 在下面内容中,我们会学习I帧、P帧和B帧在视频压缩中最重要的用例。
前两天检测网站,发现有条连接的前边出现了一个空格,还删不掉,用 F12 看了下出现了一个 u200B 的字符,非常古怪。 没怎么仔细研究,直接替换了事。 ($(".XX").text()).replace(/u200B/g,'')
OBS推流平台是我们做桌面推流直播经常会用到的推流工具,也有用户将OBS平台和EasyDSS平台结合起来,搭建线上课堂方案,关于如何使用OBS,大家可以通过下文参考一下:如何使用OBS推流平台进行转推。 分析现场后,得知客户是使用 OBS 推送文件到系统中,该文件中包含 B 帧,因此需要在推流端设置不包含B帧,即可解决该问题。 OBS默认的输出模式如下: 默认的输出模式为简单模式,首先修改输出模式为高级。 如下图: 然后在配置(Profile)中选择“baseline”,位置如下图: 点击确定后,即可成功设置,推送的 rtmp 流即可不包含B帧,客户端播放也不再卡顿。
P帧:P帧指的是前向参考帧,它需要参考前一帧的图片才能够正确把数据解码出来。 B帧:B帧指的是双向参考帧,它需要参考前一帧数据和后一帧数据才能够正常把数据解码出来。 P帧:P帧又称之为前向参考帧,此帧的特点是需要参考前一帧的图像信息才可以正确把图像解码出来。P帧指的是这一帧和前一帧的差别,并通过将图像序列中已经编码后的冗余信息充分去除来压缩传输数据量的编码图像。 B帧:B帧也称之为双向参考帧,B帧的特点是以前面的帧(I帧或者P帧)或者后面的帧(也是I帧、P帧)作为参考帧找出B帧的预测值,并且取预测差值和预测矢量进行传送。 所以在拉流端解码B帧的时候不仅需要获得前面的缓存视频,还需要获得后面的缓存视频才能够正常解码B帧。所以,B帧虽然压缩率更高,但是更消耗CPU资源。 通常来说,I帧所占用的字节和体积大于P帧、而P帧所占用的字节大于B帧。所以在码率不变的情况下,可以调整GOP的长度去改善画质,GOP的长度越长,所得到的P帧和B帧更多,画面的质量和细节就会更好。
必备软件及网站我们这次的教程是以 teams,B 站(哔哩哔哩)还有 OBS 为主的,所以在开始之前希望大家可以安装好 teams 还有 OBS 并注册一个 B 站的直播账号。 站: https://www.bilibili.com/软件和 B 站的注册我就不在这里写了,大家可以自行摸索一下,很简单的。 基础设置打开 B 站的,把鼠标放在右侧的头像上,应该可以看到如下画面点击直播中心然后点击我的直播间将直播分类还有房间标题选择好就可以点击开始直播了。 OBS 配置打开 OBS 你应该看到如上图界面。我们点击设置按钮,会看到如下画面最为初学者,不建议大家过多修改这些内容,我们关系的是推流那个选项。 我们点击推流选项会看到如下画面服务:选择自定义服务器: 将 B 站的 rtmp 地址粘贴进来串流密码:将 B 站的直播码粘贴进去完成以上操作后,恭喜你已经完成了开播的 80%的任务了。
mpeg4的每一帧开头是固定的:00 00 01 b6,那么我们如何判断当前帧属于什么帧呢?在接下来的2bit,将会告诉我们答案。 注意:是2bit,不是byte,下面是各类型帧与2bit的对应关系: 00: I Frame 01: P Frame 10: B Frame 为了更好地说明,我们举几个例子,以下是16 进制显示的视频编码: 00 00 01 b6 10 34 78 97 09 87 06 57 87 …… I帧 00 00 01 b6 50 78 34 20 cc 66 b3 89 …… P帧 00 00 01 b6 96 88 99 06 54 34 78 90 98 …… B帧 下面我们来分析一下为什么他们分别是I、P、B帧 0x10 = 0001 0000 0x50 = 0101 0000
of Pictures ) 的 第一帧 , 画面组 内 还有 P 帧 和 B 帧 ; I 帧 是 P 帧 和 B 帧 的 参考帧 ; I 帧 的 质量 决定了 同组 P 帧 和 B 帧 解码后的 一系列 ; 如 : 压缩效果达到 6:1 ; " 关键帧压缩法 " 可以有效地去除 视频的 " 空间冗余信息 " ; 三、 P 帧 - 前向预测帧 1、P 帧简介 P 帧 全称 " 前向预测帧 ( Predicted Frames ) " , 是 视频编码 中的一种 帧类型 , P 帧 采用 前向预测编码方式 , 根据 本帧 ( P 帧 ) 与 相邻的 前一帧 ( I 帧 或 P 帧 ) 的 不同点来压缩本帧数据 , 不能参考 B 帧 ; 只记录 不同点 , 这样可以 充分去除 图像序列 中 前面已编码帧 的 时间冗余信息 来压缩传输数据量的编码图像 P 帧 又被称为 " 预测帧 " ; P 帧 中的 图像数据并不是完整的 I 帧 才能完成解码 ; P 帧 只记录了 与 I 帧 不同的内容 , 也就是 只有 与 I 帧的 差异部分 , 相同的部分没有 ; 解码 P 帧 , 必须 先解码 I 帧 ; I 帧 解码完成后 ,
一、B 帧 - 双向内插帧 1、B 帧简介 B 帧 全称 " 双向内插帧 ( Bi-directional Predicted Frames ) " , 采用 双向预测编码方式 , 也就是 B 帧 记录的是 本帧 B 帧 与 前后 I 帧 或 P 帧 的差别 ; 注意 : B 帧 需要依赖于其前的最近的一个 I 帧 或者 P 帧 及其后的最近的一个 P 帧 进行解码 , B 帧 不能 依赖与 B 帧 ; B 帧 依赖的 前一帧 可以是 I 帧 或者 P 帧 ; B 帧 依赖的 后一帧 肯定是 P 帧 , 不可能 是 I 帧 ; 要解码B帧 , 不仅要取得之前的缓存画面 , 还要解码之后的画面 , 通过 前后画面帧 与 本帧 共 3 帧的 数据叠加 取得最终的画面 ; B 帧 压缩率高 , B 帧 的 压缩 与 解码 对计算机的性能要求较高 ; 2、B 帧解码案例 B 帧解码时 , 需要参考 前后 两帧 Google 阵营算法 Google 阵营算法 : VP8 算法 : Google 开发的开源视频压缩格式 , 是 WebM 项目的一部分 , 提供高质量的实时视频压缩 , 同时保持较低的解码复杂性 ; VP9
测试图片,《Python程序设计基础(第2版)》(董付国,清华大学出版社,ISBN9787302490562,2020年9月第17次印刷)版权页图片: ? 处理后的效果: ? 参考代码: ?
而正是这个优化出现了一点问题,现象如下: 已经判断播放点 A 和 Seek 点 B 不在一个 GOP 内,然后执行 av_seek_frame 方法还是把时间点 A 所在 GOP 全部解码了,导致播放上出现了卡顿 这里就很奇怪了,明明判断不在一个 GOP ,那 Seek 时就应该从时间点 B 所在 GOP 的 I 帧开始解码, 但执行时还是解码了上一个 GOP 的内容。 在没有 B 帧的情况下,I 帧的 PTS 等于 DTS ,所以判断不会出问题。 然而正是有了 B 帧,如果 I 帧的 PTS 和 DTS 不相等的话,那么上面的判断相当于是拿一个 PTS 值和 I 帧的 DTS 比较是否同一个 GOP 了。 帧,DTS 值为 0 ,有 B 帧,那么首帧的 DTS 值就可以用来做偏差值进行计算了。
七、图像恢复-反光去除 21、Location-aware Single Image Reflection Removal 本文提出一种新的基于位置感知的图像反射去除方法。 实验表明,数据合成方法对于准确去除眩光至关重要,且模型可推广到不同场景、光照条件和相机的真实镜头眩光去除。 耀斑可能以各种形状、位置和颜色出现,因此从图像中检测和完全去除它们是非常具有挑战性的。 本文首先分别检测光源区域和耀斑区域,根据光源感知引导去除耀斑伪影。 通过学习两种类型区域之间的潜在关系,方法可以从图像中去除不同类型的耀斑。此外,没有使用难以收集的成对训练数据,而是提出第一个不成对的耀斑去除数据集和新的循环一致性约束,以避免手工标注成本。 Guided Network 单图像去除阴影仍是一个悬而未决的问题。
- RTMP 协议推流使用手册 - OBS 推流设置 准备工作 安装并打开 OBS(https://obsproject.com/download? eJw1jdE***************ZLgi5UAgOzoMhrayt*cjbmiCJ699T09juc833IMT94Ld7I0iHZqVDzvVAqkZsG-IKlzLiXOnEhswHu1iUyTc9pv *****D8MQwoA496Ke6U1ip4EAH4UMc5H9pSmv6MeTBWLamhwFnWRBZ8qKGRj8Yp-wVbv*mGMVZqS7w-mMDQL 为简化参数,只支持字符串房间号, 设置输出 RTMP 后台不支持传输 B 帧,用户可以通过如下设置调整推流端软件的视频编码参数来去除 B 帧。 FPS 是视频帧率,它控制观看视频的流畅,普通视频帧率有24帧 - 30帧,低于16帧画面看起来有卡顿感,而游戏对帧率要求比较高,一般小于30帧游戏会显得不连贯。
环境准备 在 01-ChatGLM4-9B-chat FastApi 部署调用 的 环境准备和模型下载基础上,我们还需要安装 langchain 包。 return { "model_name": "glm-4-9b-chat", "max_length": self.gen_kwargs.get("max_length self.gen_kwargs.get("top_k"), } @property def _llm_type(self) -> str: return "glm-4-9b-chat "do_sample": True, "top_k": 1} llm = ChatGLM4_LLM(mode_name_or_path="/root/autodl-tmp/ZhipuAI/glm-4-9b-chat
在前一部分我们讨论了VP9到HEVC的帧间转码加速算法,在这一部分我们探讨帧内部分的转码加速算法。表1所示为HEVC和VP9在部分编码技术上的异同,我们可以发现相似点与不同点。 的深度信息进行帧内转码加速以及利用VP9采用的帧内预测模式进行方向的映射。 VP9的帧内预测提供了丰富的深度信息,这对于优化HEVC的帧内预测模式是一个很好的入手点。 VP9(左)与HEVC(右)的帧内划分示意图 因此,第一个加速方法就是利用VP9帧内划分最大深度来提前终止HEVC的帧内搜索过程。图2是该方法的流程图。 利用VP9帧内划分最大深度的流程图 采用基于VP9最大递归层数的深度优化,算法可以在一定程度上减少不必要的搜索,加快帧内转码的速度。
而VP9相关的转码加速研究目前并不多,比较重要的一个是文献[4],其实现了HEVC到VP9的转码加速。主要有两个关键点,其一是减少帧间模式的搜索。 帧内模式的搜索量小,因而帧内模式编码速度要大大快于帧间模式,文献[4]利用了这一点,在VP9的编码过程中参考HEVC对该块的划分方式,优化VP9的决策过程。 其二是参考帧选取的简化,VP9有3类参考帧的选取,分别是ARF、GOLDEN和LASTREF,算法在HEVC的解码端记录了参考帧的使用情况,在VP9的编码端使用HEVC用过的参考帧进行匹配,配合ARF、 通过监督学习就可以建立输入输出之间的映射关系,在实际的转码过程中利用映射关系完成VP9到HEVC转码的帧间加速部分。 IEEE, 2013:737-740. [2] Peixoto E, Macchiavello B, Hung E M, et al.
snapshot_download, AutoModel, AutoTokenizer import os model_dir = snapshot_download('ZhipuAI/glm-4-9b-chat ', cache_dir='/root/autodl-tmp/glm-4-9b-chat', revision='master') 指令集构建 LLM 的微调一般指指令微调过程。 input_ids": input_ids, "attention_mask": attention_mask, "labels": labels } GLM4-9B-chat tokenizer = AutoTokenizer.from_pretrained('/root/autodl-tmp/glm-4-9b-chat/ZhipuAI/glm-4-9b-chat', use_fast /ZhipuAI/glm-4-9b-chat' lora_path = '.
snapshot_download, AutoModel, AutoTokenizer import os model_dir = snapshot_download('ZhipuAI/glm-4-9b-chat " A streamlit chatbot powered by Self-LLM") # 定义模型路径 mode_name_or_path = 'autodl-tmp/ZhipuAI/glm-4-9b-chat torch.bfloat16, device_map="auto", trust_remote_code=True) return tokenizer, model # 加载Qwen1.5-4B-Chat