搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏算法一只狗
别光看图了，AI 现在能“看视频聊天”了！
最近一篇论文《VideoChat: Chat-Centric Video Understanding》提出了一个全新的思路：让 AI 以“聊天”的方式理解视频内容。性能展示论文的实验部分主要围绕以下三个核心目标展开评估 VideoChat 在开放式视频问答中的表现；验证其对时序推理、因果理解、多轮对话等复杂任务的能力；展示 VideoChat 在多模态系统融合中的有效性 VideoChat-Embed 通过识别和服装风格（和服）判断视频背景是日本文化场景，并准确数出画面中人数，还给出“搭配轻松的日本音乐”推荐。在一段篮球+舞蹈混合视频中，VideoChat‑Embed 精确捕捉“先打篮球、后跳舞”，并能指出“相机从近景切换到远景”。写在最后VideoChat 的出现，为“看视频”这一传统计算机视觉任务注入了“聊天”式的交互思维，将被动的信息提取转变为主动的、情境化的对话体验。
1.2K20编辑于 2025-07-17
来自专栏AiCharm
每日学术速递5.13
1.VideoChat: Chat-Centric Video Understanding 标题：VideoChat：以聊天为中心的视频理解作者：KunChang Li, Yinan He, Yi arxiv.org/abs/2305.06355 项目代码：https://rl-at-scale.github.io/ 摘要：我们在这项研究中，我们通过引入以端到端聊天为中心的视频理解系统 VideoChat
34140编辑于 2023-05-16
来自专栏DotNet NB && CloudNative
C# 实现 Linux 视频聊天、远程桌面（源码，支持信创国产化环境，银河麒麟，统信UOS）
/// <param name="wait">true表示自己为发送端</param> public void RequestVideo(bool wait) { if (videoChat == null) { videoChat = DoCreateVideoChatForm(wait); } videoChat.Show(); IMultimediaManager ; ClearVideoChat(); return; } this.videoChat.Initialize(mgr); this.videoChat.SendVideoRequest
78070编辑于 2023-08-30
来自专栏数据库与编程
一款开源数字人存在重大涉H问题
偶然看到一个公众号介绍一款开源数字人产品（VideoChat），打开数字人产品在线演示地址试用了一下，所有参数均为默认参数，本来以为输入的内容会转为数字人视频读出来，结果，输入内容后得到了一段不可描述的内容开源数字人地址：https://github.com/Henry-23/VideoChat 在线演示地址：https://www.modelscope.cn/studios/AI-ModelScope/
35510编辑于 2024-11-23
来自专栏全栈程序员必看
点击展开显示折叠内容
br>很多内容

</body> <script type="text/javascript" src="http://www.<em>videochat</em>.com /lib/jquery/1.9.1/jquery.min.js"></script> <script type="text/javascript" src="http://www.<em>videochat</em>.com

4K10编辑于 2022-07-12

来自专栏机器之心

160亿参数，新增多项能力，复旦MOSS开源了

API 接口形式提供服务，接口格式可参考：https://github.com/OpenLMLab/MOSS/blob/main/moss_api.pdf 目前，已有开发者根据开源内容进行而创，比如通过 VideoChat VideoChat 是一款多功能视频问答工具，结合了动作识别、视觉字幕和 StableLM 的功能。该工具可为视频中的任何对象和动作生成密集的描述性字幕，提供一系列语言风格以满足不同的用户偏好。

48030编辑于 2023-05-01

来自专栏AIGC 先锋科技

新加坡 & 纽约大学 & 字节提出 PLLaVA | 简单高效视频语言模型适应方法，超越GPT4V，突破资源限制！

VideoChat [17] 利用跨注意力机制巧妙地压缩视频token，将用户 Query 与对话上下文对齐，以增强模型的解释能力。训练数据来源于VideoChat2数据集[18]，该数据集包含了各种视频理解任务的数据，包括27k用于对话的数据，结合了VideoChat[17]和Video-ChatGPT[30]，8万分类数据来自Kinetics 与那些利用专门的视频编码器VideoChat2或更复杂的帧组合方法Chat-Univ的模型相比，PLLaVA通过改进池化策略或融合更好的视觉编码器仍有提升空间。如表3所示，PLLaVA在20项任务上的平均表现超过了之前的SOTA VideoChat2，提高了13.7%。 VideoChat2使用专门的视频编码器在大规模视频数据上进行预训练，并使用视频和图像推理数据进行微调，因此在这些方面表现更好。

86710编辑于 2024-07-08

来自专栏人工智能前沿讲习

【他山之石】CVPR2024-MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

然而，现有的基于LLM的大型多模态模型（例如，Video-LLaMA，VideoChat）只能处理有限数量的帧来理解短视频。在这项研究中，我们主要关注设计一个高效且有效的模型用于长期视频理解。

30510编辑于 2024-04-19

来自专栏DotNet NB && CloudNative

.NET+ Avalonia 实现跨平台的IM即时通讯、语音视频通话

四.下载 Avalonia 版本即时通讯源码 https://www.oraycn.com/DownLoadFiles/OMCS/IM_VideoChat.Avalonia.rar 该源码中包括如下项目： 1、Oraycn.Demos.VideoChat.LinuxServer 该Demo的Linux服务端（基于.NetCore）。 2、Oraycn.Demos.VideoChat.ClientAvalonia 该Demo的 Avalonia 客户端。

2K10编辑于 2023-11-27

来自专栏量子位

北大最新多模态大模型开源：在混合数据集上训练，无需修改直接用到图像视频任务

视频理解实验作为一个统一的VLM，Chat-UniVi超越了专门针对视频设计的方法，如VideoChat和Video-ChatGPT。视频问答实验在所有数据集上，Chat-UniVi均表现优于最先进的方法，如VideoChat和Video-ChatGPT等。

75310编辑于 2023-11-30

来自专栏机器之心

万帧？单卡！智源研究院开源轻量级超长视频理解模型Video-XL-2

相较于 VideoChat-Flash 和初代 Video-XL，Video-XL-2 显著拓展了视频理解的长度并有效降低了资源需求，为处理复杂的视频任务提供了有力的支撑。相比之下，Video-XL 与 VideoChat-Flash 在输入长视频条件下的工作效率明显落后于 Video-XL-2。

62200编辑于 2025-06-10

来自专栏进击的多媒体开发

声网 SDK 接入以及音视频通话应用开发指南

登录之后就进到管理界面了，在左侧有一系列选项可以操作，直接进到项目管理，创建我们的 VideoChat 项目。 ? 在项目创建的安全模式上，选择 APPID + Token 的方式。 manifest> 具体代码可见 Github : https://github.com/glumes/agora-sdk-demo/blob/main/app/src/main/java/com/glumes/videochat 具体代码可见 Github : https://github.com/glumes/agora-sdk-demo/blob/main/app/src/main/java/com/glumes/videochat 具体代码可见 Github： https://github.com/glumes/agora-sdk-demo/blob/main/app/src/main/java/com/glumes/videochat

4K61发布于 2020-12-15

来自专栏算法一只狗

大模型多模态统一架构全景

（VideoChat）比如得到每一帧的图像描述，包括动作、位置坐标等等，然后构造不同任务让LLM进行学习当然要说哪种方法好，我感觉模型达到了一定参数量下，不管采用哪些方法都是有效的。任务设计差异：例如VideoChat通过为每帧生成详细图像描述、动作、目标位置坐标，结合不同任务设计（动作识别、目标检测、意图理解等），让LLM获得更精细的跨模态对齐能力，而不仅仅停留在单纯的Caption

1.4K20编辑于 2025-07-05

来自专栏山行AI

Recognize_Anything-Tag2Text——一款强大的图像标签模型和Tag2Text

•2023/05/20: Tag2Text 与 VideoChat[20] 结合使用。•2023/04/20: 我们将 Tag2Text 与 Grounded-SAM[21] 结合使用。 recognize-anything.github.io/ [19] Prompt-can-anything: https://github.com/OpenGVLab/Ask-Anything [20] VideoChat

2.9K21编辑于 2023-06-14

来自专栏量子位

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

视频任务中，由于LEGO侧重对于整个视频的理解，相比VideoLLaMA、VideoChat和Valley这三个模型，性能表现相当优异：更多能力展示如上所说，LEGO的能力不仅在于视频定位，对图片、

39910编辑于 2024-01-17

来自专栏机器之心

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

上海人工智能实验室的学者们与北京航空航天大学、复旦大学、南京大学、新加坡国立大学、悉尼大学和香港中文大学（深圳）等院校合作发布 308 页详细报告，对 GPT-4、Gemini、LLama、Mixtral、LLaVA、LAMM、QwenVL、VideoChat 视频处理能力：针对视频输入的开源 MLLM 例如 VideoChat 表现优于 Gemini Pro 和 GPT-4。而开源模型 VideoChat 能够准确评估物体的材料和数量，从而提供正确的答案。 13.

69210编辑于 2024-03-07

来自专栏DeepHub IMBA

Video-LLaMa:利用多模态增强对视频内容理解

预训练后，使用MiniGPT-4, LLaVA和VideoChat的指令调优数据进一步微调我们的VL分支。

1.4K20编辑于 2023-08-30

来自专栏机器学习与生成对抗网络

视觉CV-AIGC一周最新技术精选(2023-11)

最近将基于图像的LMM扩展到视频的方法要么缺乏grounding定位能力（例如，VideoChat，Video-ChatGPT，Video-LLaMA），要么不利用音频信号来更好地理解视频（例如，Video-ChatGPT

46110编辑于 2023-11-27

来自专栏深度学习自然语言处理

多模态LLM多到看不过来？先看这26个SOTA模型吧

研究社区主要关注的是多模态内容理解和文本生成，此类模型包括 (Open) Flamingo、BLIP-2、Kosmos-1、LLaVA/LLaVA-1.5、MiniGPT-4、MultiModal-GPT、VideoChat (7) VideoChat：开创了一种高效的以聊天为中心的 MM-LLM 可用于进行视频理解对话。这项研究为该领域的未来研究设定了标准，并为学术界和产业界提供了协议。

91110编辑于 2024-02-06

第 2 页第 3 页

点击加载更多

别光看图了，AI 现在能“看视频聊天”了！

每日学术速递5.13

C# 实现 Linux 视频聊天、远程桌面（源码，支持信创国产化环境，银河麒麟，统信UOS）

一款开源数字人存在重大涉H问题

点击展开显示折叠内容

160亿参数，新增多项能力，复旦MOSS开源了

新加坡 & 纽约大学 & 字节提出 PLLaVA | 简单高效视频语言模型适应方法，超越GPT4V，突破资源限制！

【他山之石】CVPR2024-MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

.NET+ Avalonia 实现跨平台的IM即时通讯、语音视频通话

北大最新多模态大模型开源：在混合数据集上训练，无需修改直接用到图像视频任务

万帧？单卡！智源研究院开源轻量级超长视频理解模型Video-XL-2

声网 SDK 接入以及音视频通话应用开发指南

大模型多模态统一架构全景

Recognize_Anything-Tag2Text——一款强大的图像标签模型和Tag2Text

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

Video-LLaMa:利用多模态增强对视频内容理解

视觉CV-AIGC一周最新技术精选(2023-11)

最新研究综述——探索基础模型中的“幻觉”现象

多模态LLM多到看不过来？先看这26个SOTA模型吧

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

别光看图了，AI 现在能“看视频聊天”了！

每日学术速递5.13

C# 实现 Linux 视频聊天、远程桌面（源码，支持信创国产化环境，银河麒麟，统信UOS）

一款开源数字人存在重大涉H问题

点击展开显示折叠内容

160亿参数，新增多项能力，复旦MOSS开源了

​新加坡 & 纽约大学 & 字节 提出 PLLaVA | 简单高效视频语言模型适应方法，超越GPT4V，突破资源限制 ！

【他山之石】CVPR2024-MA-LMM: 内存增强的大型多模态模型，用于长期视频理解

.NET+ Avalonia 实现跨平台的IM即时通讯、语音视频通话

北大最新多模态大模型开源：在混合数据集上训练，无需修改直接用到图像视频任务

万帧？单卡！智源研究院开源轻量级超长视频理解模型Video-XL-2

声网 SDK 接入以及音视频通话应用开发指南

大模型多模态统一架构全景

Recognize_Anything-Tag2Text——一款强大的图像标签模型和Tag2Text

精确指出特定事件发生时间！字节&复旦大学多模态大模型解读视频太香了

能力与可信度可以兼得？GPT-4、Gemini等多模态大模型评测报告来了

Video-LLaMa:利用多模态增强对视频内容理解

视觉CV-AIGC一周最新技术精选(2023-11)

最新研究综述——探索基础模型中的“幻觉”现象

多模态LLM多到看不过来？先看这26个SOTA模型吧

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

新加坡 & 纽约大学 & 字节提出 PLLaVA | 简单高效视频语言模型适应方法，超越GPT4V，突破资源限制！