首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏多模态

    【万字长文】【InternVLInternVL2-26B模型部署全攻略

    -26B【介绍&加载&推理】2-1、InternVL 2.0介绍InternVL 2.0 : 是 InternVL 系列多模态大语言模型的最新版本。 InternVL 2.0 使用 8k 上下文窗口进行训练,训练数据包含长文本、多图和视频数据,与 InternVL 1.5 相比,其处理这些类型输入的能力显著提高。 InternVL 2.0各个模型如下所示:如下图所示: 与其他同类模型相比,InternVL2-26B极具竞争力。 -1B': 24, 'InternVL2-2B': 24, 'InternVL2-4B': 32, 'InternVL2-8B': 32, 'InternVL2-26B': 48, 'InternVL2 -1B': 24, 'InternVL2-2B': 24, 'InternVL2-4B': 32, 'InternVL2-8B': 32, 'InternVL2-26B': 48, 'InternVL2

    1.6K10编辑于 2025-01-16
  • 来自专栏流川疯编写程序的艺术

    《书生大模型实战营第3期》进阶岛 第4关: InternVL 多模态模型部署微调实践

    ---- 写在前面(什么是InternVLInternVL 是一种用于多模态任务的深度学习模型,旨在处理和理解多种类型的数据输入,如图像和文本。 通过整合视觉特征和语言信息,InternVL 可以在多模态领域取得更好的表现 InternVL 模型总览 对于InternVL这个模型来说,它vision模块就是一个微调过的ViT,llm模块是一个InternLM InternVL 部署微调实践 我们选定的任务是让InternVL-2B生成文生图提示词,这个任务需要VLM对图片有格式化的描述并输出。 部署InternVL使用lmdeploy。 准备InternVL模型 我们使用InternVL2-2B模型。该模型已在share文件夹下挂载好,现在让我们把移动出来。 配置微调参数 让我们一起修改XTuner下 InternVL的config,文件在: /root/InternLM/code/XTuner/xtuner/configs/internvl/v2/internvl_v2

    1.6K10编辑于 2024-08-24
  • 来自专栏OpenMMLab

    丝滑小连招,部署 Vision Language 模型

    llava internvl internlm-xcomposer2 qwen-vl deepseek-vl minigemini yi-vl LMDeploy 项目链接 https://github.com 如下表所示,LLaVA、InternVL-Chat 量化后,精度几乎无损,InternLM-XComposer2 略有损失。 我们对 Mini-InternVL-Chat-2B-V1-5 模型的不同量化方式,在 MMBench 数据集上进行了精度测试。 接下来,我们将以 Mini-InternVL-Chat-2B-V1-5 模型为例,介绍如何用 LMDeploy 丝滑部署 VL 模型。 -2B-V1-5 为例: export HF_MODEL=OpenGVLab/Mini-InternVL-Chat-2B-V1-5 export WORK_DIR=Mini-InternVL-Chat-

    58710编辑于 2024-06-04
  • 来自专栏量子位

    商汤披露:50篇论文入选CVPR 2024

    大规模视觉语言基础模型:InternVL 商汤科技、上海AI实验室等联合设计了一个大规模的视觉语言基础模型——InternVL。 通过验证,相较于当前最先进的视觉基础模型和多模态大语言模型,InternVL在广泛的通用视觉语言任务上能够取得更领先的结果。 另外,InternVL工作的最新版本InternVL 1.5具备强大的视觉编码器和更深层次的场景理解能力。 InternVL 1.5支持动态高分辨率,能够准确识别和理解图像中的各种细节以及文字信息。 Demo:https://internvl.opengvlab.com/ 第三方评测结果显示,InternVL 1.5在多模态感知、通用问答、文档理解、信息图表理解以及数理理解等方面综合能力领先开源模型

    41210编辑于 2024-06-21
  • 来自专栏AIGC 先锋科技

    轻量级视频压缩(LVC):以最小成本迁移长视频理解能力,解决VLMs采样问题并提升多模型性能 !

    大量实验表明,LVC在各种模型(包括InternVL2系列和Phi-3.5-Vision)上均提供了持续的性能提升。 InternVL2系列结果 LVC方法通过引入额外的视觉信息,以极低成本提升了InternVL2模型系列的长期视频理解能力。 值得注意的是,InternVL2-8B-LVC表现优于InternVL2-40B/76B模型,而InternVL2-40B-LVC在MLVU基准测试中超越了GPT-4o。 输入帧分析 LVC方法在不同压缩率下为不同尺度的InternVL2提供了稳定的性能提升,在MLVU上观察到的改进更为显著。 这种现象在InternVL2中也观察到。 从图中可以看出,LVC在MLVU上实现了持续改进,平均提升幅度为5.4。

    86510编辑于 2025-05-14
  • 来自专栏福大大架构师每日一题

    lmdeploy v0.10.1 发布:新增 ROCm 支持、GLM-4.5 兼容,以及众多优化与修复

    支持 InternVL3.5-Flash • 为 InternVL 模型提供 FlashAttention 版本支持。 7. 修复 InternVL 相关问题,包括 Flash 长上下文精度错误。 9. 修复 SequenceManager::Erase 中未返回迭代器的问题。 10. 特别是新增了 ROCm 支持,让 AMD GPU 用户也能高效使用,同时针对 GLM-4.5、InternVL3.5-Flash 等最新模型的兼容为开发者提供了更多选择。

    27210编辑于 2025-12-18
  • 来自专栏机器之心

    MM-Eureka:极少数据实现多模态推理的R1-Zero时刻

    我们的探索 开源框架:我们基于 OpenRLHF 开发了一个高效可扩展的多模态大规模强化学习框架,支持 InternVL 等多种模型和 RL 算法。 相比 R1-V 等已有框架,我们的方案成功训练了 InternVL 2.5-38B 等大型模型。 稳定训练:我们开发了两个模型——MM-Eureka-8B(基于 InternVL 2.5-Instruct-8B)和 MM-Eureka-Zero-38B(基于 InternVL 2.5-Pretrained Model Size:尽管目前一些工作,比如 ORZ、SimpleRL 在 7B level 的 LLM 上也复现了 R1 的表现,但我们在多模态推理场景下,难以通过 8B 的 InternVL Pretrained

    21200编辑于 2025-03-14
  • 来自专栏AiCharm

    每日学术速递1.3

    2.InternVL: Scaling up Vision Foundation Models and Aligning for Generic Visual-Linguistic Tasks 标题:InternVL Tong Lu, Yu Qiao, Jifeng Dai 文章链接:https://arxiv.org/abs/2312.14238 项目代码:https://github.com/OpenGVLab/InternVL 在这项工作中,我们设计了一个大规模视觉语言基础模型(InternVL),它将视觉基础模型扩展到 60 亿个参数,并使用来自各个领域的网络规模图像文本数据逐步将其与大型语言模型对齐。来源。

    36610编辑于 2024-01-04
  • 每周AI论文速递(250414-250418)

    InternVL3: Exploring Advanced Training and Test-Time Recipes for Open-Source Multimodal Models InternVL3 :探索开源多模态模型的先进训练与测试阶段方案 我们推出InternVL3,这是InternVL系列的重大突破,采用原生设计的多模态预训练范式。 不同于将纯文本大语言模型(LLM)改造为支持视觉输入的多模态大语言模型(MLLM)的传统方法,InternVL3在单一预训练阶段中,通过多样化的多模态数据和纯文本语料库同步学习多模态与语言能力。 为提升性能和可扩展性,InternVL3引入了可变视觉位置编码(V2PE)以支持扩展多模态上下文,采用了监督微调(SFT)和混合偏好优化(MPO)等先进训练后技术,并实施了测试阶段扩展策略及优化的训练基础设施 大量实验评估表明,InternVL3在各类多模态任务中均展现卓越性能。其中,InternVL3-78B在MMMU基准测试中获得72.2分,在开源MLLM中创下新的SOTA记录。

    28900编辑于 2025-04-20
  • 来自专栏福大大架构师每日一题

    LLaMA-Factory v0.9.3版本全面解读:多模态模型新特性、丰富基础与指令模型及关键优化

    此次v0.9.3版本,推出了InternVL3、Qwen3、Gemma3、Llama4等多款重量级多模态模型,同时引入了音视频推理支持、官方GPU docker镜像、全新推理引擎以及多种优化功能。 多模态模型大跃进 • InternVL2.5/InternVL3:系列多模态视觉语言模型,通过创新的视觉文本联合预训练和推理策略,支持更丰富的图像理解和跨模态推理能力,为视觉问答、图像描述、人机交互等任务提供强力支撑 三、重点更新解读 多模态模型架构革新 LLaMA-Factory顶层设计理念强调“多模态融合”,在InternVL3和Gemma3系列中成功实现了多种数据通路的融合优化。 例如,InternVL3通过改进跨模态注意力机制,使视觉信息能够与文本深度交互,显著提升问答和对话系统的表现力。 下载模型权重在官方模型库中挑选所需基础模型或Instruct模型(如Qwen3、Gemma3、InternVL3等),支持按需加载。 3.

    77020编辑于 2025-06-19
  • 来自专栏开源小分队

    怎么能既降低训练数据量,还能高效理解图片内容?看看这个多模态大模型开发套件!

    亮点三:国产硬件训推能力支持 多模态大模型InternVL2、LLaVA、SD3、SDXL适配国产芯片,提供国产计算芯片上的训推能力。 PaddleMIX国产硬件适配涵盖了多模态理解模型InternVL2、 LLaVA和多模态⽣成模型SD3、SDXL。 此外,PaddleMIX提供了多个多模态大模型的实战流程,以InternVL2为例,作为多模态理解的典型代表, PaddleMIX中实现了完整的训练推理流程。 模型支持从1B到40B等多种参数规格,包括OpenGVLab/InternVL2系列等预训练权重。通过简单的命令行接口,即可实现图片描述生成、视觉问答和多轮图文对话等复杂任务。 InternVL2模型可使用约120万⾼质量视觉指令样本进行训练,数据来源包括LLaVA-ZH、DVQA、ChartQA等权威数据集,同时提供了单独的ChartQA数据集作为入⻔示例。

    49410编辑于 2024-12-31
  • 来自专栏福大大架构师每日一题

    lmdeploy v0.10.0版本发布:新增Turbomind权重与KV缓存卸载、GLM-4.1支持、性能优化与大量Bug修复

    • 支持 internvl3.5 多模态模型。 • 更新 Turbomind 通讯库,提升稳定性。 • Turbomind GEMM 库支持 MXFP4 格式。 • 修复 internvl 模型 disable_vision_encoder 失效问题。 • 统一两个推理引擎的响应行为。 • 修复 internvl.py 模块问题(#3528)。 • 修复部分 rotary factor 计算错误。 • 修复 /chat/completions 流式模式下重复 token 问题。 • 修复 internvl3 在 HF 版本下的兼容性问题。 • 修复 Docker 构建时 Ascend 标签名称错误。 • 将 eot_token 加入停止词(stop_words)中。

    27810编辑于 2025-12-18
  • 来自专栏AI科技评论

    视觉 AI 的「Foundation Model」,已经发展到哪一步?丨CVPR 2024 现场直击

    InternVL-26B 的研究始于 2023 年 3 月。此前,视觉基础模型的相关研究代表工作是 OpenAI 在 2021 年发表的CLIP。 这启发了上海 AI Lab 团队开始研究 InternVL。 最开始是研究了一个 6+7 的 13B 模型(即 InternVL-Chat-V1.2),但由于在对话系统的实际应用中表现一般,又投入大量精力优化对话功能,又得出了一个 26B 模型,即风靡一时的 InternVL-Chat-V1.5 从 InternVL-1.5 技术报告得知,视觉基础模型研究的三个关键点是: 一,视觉模型必须接驳能力与之相媲美的语言模型。 InternVL 研究员评价,GPT-4o 注重不同模型间的跨模态转化,但 InternVL 的路线是专注于同一个模型上不同模态的输入与文本理解的输出。

    66010编辑于 2024-07-05
  • 来自专栏机器之心

    12%计算量就能媲美原模型,Adobe、罗切斯特大学等提出YOPO剪枝技术

    尽管近期 Qwen2-VL 和 InternVL-2.0 的出现将开源多模态大模型的 SOTA 提升到了新高度,但巨大的计算开销限制了其在很多场景下的应用。 实验结果表明 LLaVA-1.5 只需保留 12% 的计算量即可获得与原始模型同等的性能,并且实验团队还验证了这些计算冗余在 Qwen2-VL 和 InternVL-2.0 同样普遍存在。 为了进一步印证文中观察到的大量视觉计算冗余是普遍存在的,团队将该方法应用于其他模型包括 Qwen2-VL-7B 和 InternVL-2.0 4B/8B/26B。 此外,更大的模型能够适应更高的剪枝比例,这从不同模型规模下对 InternVL-2.0 的剪枝结果中得到了验证。 讨论 为什么不直接同时剪枝视觉和文本的参数? 针对 Qwen2-VL-7B 和 InternVL-2.0 4B/8B/26B 的额外实验进一步证实,视觉计算冗余在多模态大模型中普遍存在。 © THE END 转载请联系本公众号获得授权

    26100编辑于 2025-02-14
  • 每周AI论文速递(250825-250829)

    InternVL3.5: Advancing Open-Source Multimodal Models in Versatility, Reasoning, and Efficiency InternVL3.5 :提升开源多模态模型的通用性、推理能力与效率 我们推出 InternVL 3.5,这是一个全新的开源多模态模型家族,显著提升了 InternVL 系列在通用性、推理能力和推理效率方面的表现。 这些改进使得 InternVL3.5 相比前代模型 InternVL3,实现了高达 16.0% 的整体推理性能提升和 4.05 倍的推理加速。 此外,InternVL3.5 还支持图形用户界面 (GUI) 交互和具身智能体等新型能力。 值得注意的是,我们最大的模型 InternVL3.5-241B-A28B 在通用多模态、推理、文本及智能体任务上,均达到了开源 MLLM 中的最先进水平,缩小了与 GPT-5 等领先商业模型的性能差距。

    20810编辑于 2025-11-20
  • XTuner 微调

    _5_internlm2_26b_finetune internvl_v1_5_internlm2_26b_lora_finetune internvl_v1_5_internlm2_26b_qlora_finetune internvl_v1_5_internlm2_2b_finetune internvl_v1_5_internlm2_2b_lora_finetune internvl_v1_5_internlm2 _2b_qlora_finetune internvl_v2_internlm2_26b_finetune internvl_v2_internlm2_26b_lora_finetune internvl_v2 _internlm2_26b_qlora_finetune internvl_v2_internlm2_2b_finetune internvl_v2_internlm2_2b_lora_finetune internvl_v2_internlm2_2b_qlora_finetune internvl_v2_internlm2_5_8b_finetune internvl_v2_internlm2_5_

    45110编辑于 2024-10-10
  • 来自专栏流川疯编写程序的艺术

    《书生大模型实战营第3期》进阶岛 第3关: LMDeploy 量化部署进阶实践

    3 LMDeploy与InternVL2 本次实践选用InternVL2-26B进行演示,其实就根本来说作为一款VLM和上述的InternLM2.5在操作上并无本质区别,仅是多出了"图片输入"这一额外步骤 ,但作为量化部署进阶实践,选用InternVL2-26B目的是带领大家体验一下LMDeploy的量化部署可以做到何种程度。 3.1.1 W4A16 模型量化和部署 针对InternVL系列模型,让我们先进入conda环境,并输入以下指令,执行模型的量化工作。 根据InternVL2介绍,InternVL2 26B是由一个6B的ViT、一个100M的MLP以及一个19.86B的internlm组成的。 通过以下命令启动API服务器,部署InternVL2模型: lmdeploy serve api_server \ /root/models/InternVL2-26B-w4a16-4bit/

    74810编辑于 2024-08-24
  • 来自专栏机器之心

    开源版MetaQuery来了!OpenUni用1.1B参数媲美BLIP3-o-8B,数据代码完全开源

    //github.com/wusize/OpenUni 联系方式: size001@e.ntu.edu.sg 架构图,OpenUni 架构:通过 256 个可学习查询和 6 层轻量连接器,桥接冻结的 InternVL 冻结的 InternVL - 保持原有理解能力 3.6 层 transformer 连接器 - 基于 ViT 架构 4.SANA 扩散模型 - 高效图像生成 模型对比 * 对于 BLIP3-o,将预测 WISE:OpenUni-L 达到 0.52 分,与 BLIP3-o-8B(公开数据版)持平 生成效果展示 图 2:OpenUni-L-1024 生成的多样化高质量图像 多模态理解能力 由于采用冻结 InternVL3

    39010编辑于 2025-06-23
  • 来自专栏机器之心

    算法系统协同优化,vivo与港中文推出BlueLM-V-3B,手机秒变多模态AI专家

    更令人惊喜的是,BlueLM-V-3B 甚至超越了一系列参数规模更大的 MLLM(例如,MiniCPM-V-2.6、InternVL2-8B),展现了其强大的实力。 该团队发现主流动态分辨率方案,如 LLaVA-NeXT 和 InternVL 1.5 往往伴随图片过度放大。 对于 InternVL1.5,给定一个分辨率为 380×76 的图像,它会选择 5:1 的比例,直接将原始图像调整至 1920×384(放大 25 倍)。 为公平对比,他们将 LLaVA-NeXT、InternVL 1.5 和改进方案的最大分块数均设置为 9。 比较 LLaVA-NeXT、InternVL 1.5 和改进方案在测评集上的性能表现。 由于 3B 模型的学习速度较慢,每个阶段训两轮。该团队统计了在多个常用测评集上的结果。

    37710编辑于 2025-02-14
  • 来自专栏福大大架构师每日一题

    lmdeploy v0.9.2 重磅发布:全面拥抱多模态与大模型,FP8量化、FA3加速与Qwen2.5-VL支持的飞跃

    InternVL 增强:对于另一个强大的多模态模型 InternVL,本版本也进行了多项优化(Improve internvl for turbomind engine),修复了其中的归一化层问题( fix internvl norm),使其在 TurboMind 引擎上的运行更加稳定和高效。 • 全面:通过对 Qwen2.5-VL、InternVL 等模型的强力支持,将应用边界从文本扩展至多模态,拥抱 AGI 的未来。

    31110编辑于 2025-12-18
领券