最近一篇论文《VideoChat: Chat-Centric Video Understanding》提出了一个全新的思路:让 AI 以“聊天”的方式理解视频内容。 性能展示论文的实验部分主要围绕以下三个核心目标展开 评估 VideoChat 在 开放式视频问答中的表现; 验证其对 时序推理、因果理解、多轮对话等复杂任务的能力; 展示 VideoChat 在 多模态系统融合中的有效性 VideoChat-Embed 通过识别和服装风格(和服)判断视频背景是日本文化场景,并准确数出画面中人数,还给出“搭配轻松的日本音乐”推荐。 在一段篮球+舞蹈混合视频中,VideoChat‑Embed 精确捕捉“先打篮球、后跳舞”,并能指出“相机从近景切换到远景”。 写在最后VideoChat 的出现,为“看视频”这一传统计算机视觉任务注入了“聊天”式的交互思维,将被动的信息提取转变为主动的、情境化的对话体验。
1.VideoChat: Chat-Centric Video Understanding 标题:VideoChat:以聊天为中心的视频理解 作者:KunChang Li, Yinan He, Yi arxiv.org/abs/2305.06355 项目代码:https://rl-at-scale.github.io/ 摘要: 我们在这项研究中,我们通过引入以端到端聊天为中心的视频理解系统 VideoChat
/// <param name="wait">true表示自己为发送端</param> public void RequestVideo(bool wait) { if (videoChat == null) { videoChat = DoCreateVideoChatForm(wait); } videoChat.Show(); IMultimediaManager ; ClearVideoChat(); return; } this.videoChat.Initialize(mgr); this.videoChat.SendVideoRequest
偶然看到一个公众号介绍一款开源数字人产品(VideoChat),打开数字人产品在线演示地址试用了一下,所有参数均为默认参数,本来以为输入的内容会转为数字人视频读出来,结果,输入内容后得到了一段不可描述的内容 开源数字人地址:https://github.com/Henry-23/VideoChat 在线演示地址:https://www.modelscope.cn/studios/AI-ModelScope/
br>很多内容
API 接口形式提供服务,接口格式可参考:https://github.com/OpenLMLab/MOSS/blob/main/moss_api.pdf 目前,已有开发者根据开源内容进行而创,比如通过 VideoChat VideoChat 是一款多功能视频问答工具,结合了动作识别、视觉字幕和 StableLM 的功能。该工具可为视频中的任何对象和动作生成密集的描述性字幕,提供一系列语言风格以满足不同的用户偏好。
VideoChat [17] 利用跨注意力机制巧妙地压缩视频token,将用户 Query 与对话上下文对齐,以增强模型的解释能力。 训练数据来源于VideoChat2数据集[18],该数据集包含了各种视频理解任务的数据,包括27k用于对话的数据,结合了VideoChat[17]和Video-ChatGPT[30],8万分类数据来自Kinetics 与那些利用专门的视频编码器VideoChat2或更复杂的帧组合方法Chat-Univ的模型相比,PLLaVA通过改进池化策略或融合更好的视觉编码器仍有提升空间。 如表3所示,PLLaVA在20项任务上的平均表现超过了之前的SOTA VideoChat2,提高了13.7%。 VideoChat2使用专门的视频编码器在大规模视频数据上进行预训练,并使用视频和图像推理数据进行微调,因此在这些方面表现更好。
然而,现有的基于LLM的大型多模态模型(例如,Video-LLaMA,VideoChat)只能处理有限数量的帧来理解短视频。 在这项研究中,我们主要关注设计一个高效且有效的模型用于长期视频理解。
四.下载 Avalonia 版本即时通讯源码 https://www.oraycn.com/DownLoadFiles/OMCS/IM_VideoChat.Avalonia.rar 该源码中包括如下项目 : 1、Oraycn.Demos.VideoChat.LinuxServer 该Demo的Linux服务端(基于.NetCore)。 2、Oraycn.Demos.VideoChat.ClientAvalonia 该Demo的 Avalonia 客户端。
视频理解实验 作为一个统一的VLM,Chat-UniVi超越了专门针对视频设计的方法,如VideoChat和Video-ChatGPT。 视频问答实验 在所有数据集上,Chat-UniVi均表现优于最先进的方法,如VideoChat和Video-ChatGPT等。
相较于 VideoChat-Flash 和初代 Video-XL,Video-XL-2 显著拓展了视频理解的长度并有效降低了资源需求,为处理复杂的视频任务提供了有力的支撑。 相比之下,Video-XL 与 VideoChat-Flash 在输入长视频条件下的工作效率明显落后于 Video-XL-2。
登录之后就进到管理界面了,在左侧有一系列选项可以操作,直接进到项目管理,创建我们的 VideoChat 项目。 ? 在项目创建的安全模式上,选择 APPID + Token 的方式。 manifest> 具体代码可见 Github : https://github.com/glumes/agora-sdk-demo/blob/main/app/src/main/java/com/glumes/videochat 具体代码可见 Github : https://github.com/glumes/agora-sdk-demo/blob/main/app/src/main/java/com/glumes/videochat 具体代码可见 Github: https://github.com/glumes/agora-sdk-demo/blob/main/app/src/main/java/com/glumes/videochat
(VideoChat)比如得到每一帧的图像描述,包括动作、位置坐标等等,然后构造不同任务让LLM进行学习当然要说哪种方法好,我感觉模型达到了一定参数量下,不管采用哪些方法都是有效的。 任务设计差异: 例如VideoChat通过为每帧生成详细图像描述、动作、目标位置坐标,结合不同任务设计(动作识别、目标检测、意图理解等),让LLM获得更精细的跨模态对齐能力,而不仅仅停留在单纯的Caption
•2023/05/20: Tag2Text 与 VideoChat[20] 结合使用。•2023/04/20: 我们将 Tag2Text 与 Grounded-SAM[21] 结合使用。 recognize-anything.github.io/ [19] Prompt-can-anything: https://github.com/OpenGVLab/Ask-Anything [20] VideoChat
视频任务中,由于LEGO侧重对于整个视频的理解,相比VideoLLaMA、VideoChat和Valley这三个模型,性能表现相当优异: 更多能力展示 如上所说,LEGO的能力不仅在于视频定位,对图片、
上海人工智能实验室的学者们与北京航空航天大学、复旦大学、南京大学、新加坡国立大学、悉尼大学和香港中文大学(深圳)等院校合作发布 308 页详细报告,对 GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat 视频处理能力:针对视频输入的开源 MLLM 例如 VideoChat 表现优于 Gemini Pro 和 GPT-4。 而开源模型 VideoChat 能够准确评估物体的材料和数量,从而提供正确的答案。 13.
预训练后,使用MiniGPT-4, LLaVA和VideoChat的指令调优数据进一步微调我们的VL分支。
最近将基于图像的LMM扩展到视频的方法要么缺乏grounding定位能力(例如,VideoChat,Video-ChatGPT,Video-LLaMA),要么不利用音频信号来更好地理解视频(例如,Video-ChatGPT
VideoChat [17] 是一个全面的系统,采用面向聊天的方法来理解视频。 VideoChat将基础视频模型与LLMs结合,使用一个可适应的神经界面,展示出在理解空间、时间、事件定位和推断因果关系方面的卓越能力。 Videochat: Chat-centric video understanding. arXiv preprint arXiv:2305.06355. [18] Yongsheng Yu, Heng
研究社区主要关注的是多模态内容理解和文本生成,此类模型包括 (Open) Flamingo、BLIP-2、Kosmos-1、LLaVA/LLaVA-1.5、MiniGPT-4、MultiModal-GPT、VideoChat (7) VideoChat:开创了一种高效的以聊天为中心的 MM-LLM 可用于进行视频理解对话。这项研究为该领域的未来研究设定了标准,并为学术界和产业界提供了协议。