搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏深度学习和计算机视觉
视觉词袋模型简介
简介视觉单词袋是一种描述计算图像之间相似度的技术。常用于用于图像分类当中。该方法起源于文本检索（信息检索），是对NLP“单词袋”算法的扩展。在“视觉单词袋”中，我们的输入是图像而不是文本文档，并且我们使用视觉单词来描述图像。 ? 文字文档袋 ? 图像视觉词袋 ? 视觉单词在BovW中，我们将图像分解为一组独立的特征，特征由关键点和描述符组成，关键点与兴趣点是同一件事。它们某些是空间位置或图像中的点，这些位置定义了图像中的突出部分。每个聚类的中心（质心）都充当一个视觉单词，所有这些K组的重心构成了我们的字典。 ? K均值聚类 03. 直方图的创建 ? 检测视觉单词现在我们将创建一个（N，K）的二维数组，我们将在接下来的几行中看到如何填充此数组。
1.7K10发布于 2021-01-06
来自专栏TechBlog
通用视觉框架OpenMMLab图像分类与基础视觉模型
hat{X}) 传统方法：设计图像特征(1990s~2000s) 特征工程的天花板在ImageNet 图像识别挑战赛里，2010 和2011 年的冠军队伍都使用了经典的视觉方法，基于手工设计的特征+ 从特征工程到特征学习层次化特征的实现方式 AlexNet 的诞生& 深度学习时代的开始在2012 年的竞赛中，来自多伦多大学的团队首次使用深度学习方法，一举将错误率降低至15.3% ，而传统视觉算法的性能已经达到瓶颈图像分类的数学表示模型设计：设计适合图像的 _Θ • 卷积神经网络 • 轻量化卷积神经网络 • 神经结构搜索 • Transformer 模型学习：求解一组好的参数Θ • 监督学习：基于标注数据学习 • 损失函数 • 随机梯度下降算法 • 视觉模型常用训练技巧 • 自监督学习：基于无标注的数据学习 AlexNet (2012) 第一个成功实现大规模图像的模型，在ImageNet 猜想：虽然深层网络有潜力达到更高的精度，但常规的优化算法难以找到这个更优的模型。
98620编辑于 2023-02-24
来自专栏人工智能
什么是视觉语言基础模型？
本文就来聊聊这个视觉语言基础模型。Vision-Language Foundation Model 是一类能够同时处理视觉和语言信息的人工智能模型。什么是视觉语言基础模型视觉语言基础模型是一种能够理解和生成视觉与语言信息的多模态人工智能模型。其目标是建立视觉与语言之间的语义联系，从而使得模型能够处理复杂的跨模态任务。典型的视觉语言基础模型包括 CLIP、DALL·E 和 Flamingo 等。这种任务通常采用视觉语言基础模型如 Flamingo，该模型通过跨模态注意力机制，将视觉和语言信息深度融合，从而实现精准回答。更强的生成能力：提升文本到图像生成模型的质量和可控性。总结视觉语言基础模型通过整合视觉和语言信息，为多模态任务提供了强大的技术支持。
43300编辑于 2025-01-01
来自专栏AI工程落地
VLM视觉模型处理过程
对于尺寸为(H * W)的图像，视觉token数为：N = (H/14) * (W/14)如果直接做Attention注意力计算，时间复杂度为：O(N^2)。所以，vision attention只有一个动态值：共有多少个window（结合了图片数和图片大小两个变量）另外，Qwen2.5 VL有一些小参数量模型中，还保留几层full attention，比如：qwen2.5 VL 3B视觉模型中，7、15、23、31层是full attention，所有图片token一起做注意力计算。 , dtype=torch.int32), input shape: torch.Size([3540, 1, 1024]) 可以看到模型把两张图片分开当然两个模型执行的底层代码都一样，相应的代码位置：vllm/vllm/v1/attention/ops/vit_attn_wrappers.py at main · vllm-project/vllm
25211编辑于 2026-02-09
来自专栏友儿
盒模型与视觉格式化模型深度解析
一、盒模型与视觉格式化模型盒模型：规定单个盒子尺寸和位置的规则。视觉格式化模型（布局规则）：页面上多个盒子排列的规则。视觉格式化模型大体上将页面中盒子的排列分为三种方式：常规流、浮动、定位。
20410编辑于 2024-08-31
来自专栏Python编程和深度学习
BBN：长尾视觉识别模型（CVPR 2020）
如上图所示，计算机视觉识别任务中经常面临长尾数据分布的挑战，即少数类占有多数样本，多数类只有少数样本。如下图（Figure 2）所示，以左边图为例，先看第1列，即固定表征学习部分的参数（采用交叉熵CE训练得到的），从上往下3行分别表示采用RS、RW、CE训练得到的分类器，其中RS得到的模型效果最好，RS 因此文中认为，表征学习部分应该在数据原有的分布上进行训练，RS和RW这些改进方法只需要加在分类器学习上即可，从而提出了Bilateral-Branch Network (BBN)以提高模型在长尾分布数据上的性能
2.2K20发布于 2020-09-04
来自专栏练小习的专栏
视觉格式化模型-控制框
一、块级元素和块框块级元素是源文档中那些在视觉上被格式化为块（如：段落）的元素。
90590发布于 2017-12-29
来自专栏CreateAMind
视觉意识的主动推理模型
具体来说,我们提出了一个基于主动推理的视觉意识的层次化、部分可观察的马尔可夫决策过程(POMDP)模型。正如我们将要展示的,手头有一个电子实验对象可以让我们证明,在当前关于视觉意识的神经科学研究中,大量不同的发现是如何被大脑功能的第一原理解释的。接下来,我们转向预期在视觉意识中的作用,并展示我们的模型如何扩展 GNW 理论的原始四向分类法,以包含在逐个试验的基础上操纵先前预期的范式——突出从这种扩展中出现的新预测。从技术上讲,推理指的是更新关于隐藏状态的信念,而学习对应于更新由上述矩阵指定的生成模型的参数(关于该参数的信念) 2.2 视觉意识的深层时间模型为了模拟有意识和无意识感知之间的差异,我们基于 Pitts 除了解释和统一视觉意识的神经相关文献中不同的发现之外,这里提出的预测性全球神经元工作区模型还产生了几个经验预测和机械神经计算解释,涉及 P3 和主观报告的关系、有意识通路下推理机制的神经生物学实现以及视觉意识中预期的作用
83520编辑于 2022-04-15
来自专栏人工智能
多模态AI与视觉语言模型
CLIP的影响 CLIP证明了大规模对比预训练的有效性，开启了视觉-语言模型的新纪元。其成功催生了后续众多工作： Stable Diffusion：使用CLIP进行图像-文本对齐 LLaVA：结合CLIP视觉编码器和语言模型 Flamingo：多模态上下文学习多模态架构设计早期融合视觉问答（VQA）给定图像和自然语言问题，生成答案。应用场景包括辅助视觉搜索、教育等。图像生成（Text-to-Image）根据文本描述生成图像。DALL-E、Midjourney、Stable Diffusion等模型展现出惊人的创造力。通过CLIP等模型的实践，我们看到跨模态理解不仅可行，而且效果惊人。从零样本分类到图像生成，从视觉问答到多模态对话，多模态技术正在不断拓展AI的能力边界。
42510编辑于 2026-01-21
视觉语言模型知识蒸馏方法优化
大型基于Transformer架构的机器学习模型近期在视觉与语言任务中展现出卓越性能。但这类大模型往往因计算速度限制难以实时部署，实际系统通常采用知识蒸馏技术将大模型知识迁移至更轻量的学生模型。传统蒸馏方法采用教师与学生模型注意力头一对一对齐的方式，而学生模型为降低复杂度通常会减少注意力头数量。在AAAI 2024会议上提出的新方法突破了这一限制：将教师模型所有注意力头的知识蒸馏至学生模型全部注意力头中。当学生模型头数少于教师时，单个学生注意力头可编码多个教师头的综合信息。实验在两个视觉语言模型（VLM）上进行，这些模型将图像和文本映射到同一向量空间，并针对视觉问答、图像描述和基于图像的翻译任务进行微调。新方法在三个任务上均超越现有基线表现。即使学生模型头数显著少于教师，也能通过加权聚合方式有效保留多维度特征信息。该方法为部署轻量级视觉语言模型提供了新的技术路径，在保持模型效率的同时最大化知识迁移效果。
27500编辑于 2025-08-04
来自专栏活动
仿生视觉：生物视觉模型在传感器设计中的应用
仿生视觉就是其中之一，通过模拟生物视觉系统的工作原理，设计出具有类似功能的传感器。本文将介绍仿生视觉技术在传感器设计中的应用，详细探讨其部署过程，并结合实例和代码解释，帮助读者更好地理解和应用这一技术。Ⅰ、项目介绍①. 背景仿生视觉是指受生物视觉系统启发而设计的一种视觉系统。目标本项目旨在利用仿生视觉技术，设计出一种具有生物视觉特征的传感器，能够模拟生物视觉系统中的特定功能，如运动检测、目标跟踪等，以满足特定的应用需求。③. 发展历程在传感器设计领域，仿生视觉技术的应用旨在模拟生物视觉系统的功能，并将其应用于实际应用场景中。本项目的目标是设计一种具有生物视觉特征的传感器，以满足特定的应用需求，如运动检测和目标跟踪等。生物学启发设计仿生视觉传感器将更加深入地借鉴生物视觉系统中的设计原理和机制，实现对生物视觉系统更加精细和深入的模拟。
92910编辑于 2024-04-16
来自专栏未来先知
从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !
CLIP通过在大规模图像文本对上训练，将视觉和文本表示进行对齐，使模型能够学习图像和文本嵌入之间的丰富语义关系。虽然CLIP主要用于图像分类任务，但其跨模态学习能力也使其在医疗背景[9]得到应用。预训练的图像编码器基于Hiera [10]构建，这是一种分层视觉 Transformer ，用于生成多尺度特征。与其他视觉 Transformer 不同，Hiera不包含池化层，因此它逐步减小特征的空间大小，使模型能够保留更多的详细空间信息。 4 Conclusion 作者提出了SAM-I2I框架，用于跨模态MRI合成，通过利用视觉基础模型（SAM2）中编码的知识来实现。该模型使用SAM2预训练的Hiera图像编码器作为 Backbone 模型，以提取相关的层次特征。
79210编辑于 2024-12-23
来自专栏机器之心
大视觉模型方向，计算机视觉顶尖期刊 IJCV 特刊征稿
，在许多视觉计算问题上带来了巨大的突破。最近我们观察到另一种趋势在社区里受到了广泛的关注和研究，即视觉模型的扩展，从长远来看可能会对该领域产生重大的影响。具体来说，视觉模型的大小从几千万参数成倍增长到几亿，甚至几十亿，尤其是在 Vision Transformer 出现之后。此外，训练数据的规模和多样性也随着模型容量的增长而急剧增加，不仅表现在数量上，也表现在形式上（例如结合图像和语言）。在这里，为了简洁起见，我们将此类模型称为大视觉模型 (Large Vision Models or LVMs)，其中包括单模态视觉模型和多模态视觉模型（例如视觉语言模型）。
84120编辑于 2022-09-20
来自专栏机器之心
模型越大，性能越好？苹果自回归视觉模型AIM：没错
机器之心报道编辑：蛋酱、杜伟视觉模型，同样遵循「参数越多性能越强」的规律？刚刚，一项来自苹果公司的研究验证了这个猜想。他们利用包括 ViT、大规模网络数据集和 LLM 预训练最新进展在内的工具集，重新审视了 iGPT 等自回归表征学习方面的前期工作，此外还引入了两处架构修改，以适应视觉特征的自回归预训练。如图 1 所示，以 15 个图像识别基准的平均准确率来衡量，AIM 模型在与模型规模的关系上表现出很强的扩展性，容量越大的模型下游性能越好。这一观察结果证明，自回归目标足以满足视觉特征的训练要求。此外，随着对更多图像进行训练，研究者还观察到了下游性能的持续改善，且没有饱和的迹象。研究者还使用自回归目标训练的架构与 BERT 在语言领域以及 BEiT 和 MAE 在视觉领域流行的掩蔽目标进行了比较。
45910编辑于 2024-01-18
多图像输入视觉语言模型技术突破
多图像输入视觉语言模型视觉语言模型能够将图像和文本映射到共同的表示空间，在多模态AI任务中展现出卓越性能。但传统模型通常基于文本-图像对进行训练，每个文本输入仅关联单张图像，这限制了模型的应用场景。在冬季计算机视觉应用会议（WACV）上，提出了一种新的多图像聚合嵌入方法，显著提升了多模态AI任务的性能。模型架构典型视觉语言模型包含图像编码器（生成输入图像的嵌入表示）和投影层（将图像嵌入投影到预训练大语言模型的表示空间）。有时在图像编码器与投影层之间还会插入查询嵌入生成器。本研究引入了多重实例视觉组件（MIVC），无论何种架构都能接收视觉编码器的输出，为多个输入图像创建统一表示。实验结果在商品分类、商品信息推断和图像描述三项任务中，无门控注意力机制模型全面优于其他方法，有时优势显著。
34610编辑于 2025-09-04
来自专栏机器学习与生成对抗网络
综述推荐：视觉计算中的扩散模型
State of the Art on Diffusion Models for Visual Computing https://arxiv.org/pdf/2310.07204v1.pdf 视觉计算这些领域中，扩散模型是生成式人工智能架构的选择。仅在过去一年中，关于扩散的工具和应用的文献已呈指数增长，有关论文以每天发布在arXiv上的形式呈现在计算机图形学、计算机视觉和人工智能社区。本文旨在介绍扩散模型的基本数学概念、流行扩散模型的实现细节和设计选择，并概述生成式人工智能工具的重要方面，包括个性化、条件化、逆映射（personalization, conditioning, inversion
48310编辑于 2023-10-19
来自专栏AIGC 先锋科技
视觉语言模型能否取代人类标注？
这项研究评估了视觉语言模型（VLMs）在图像数据标注方面的能力，通过将它们在CelebA数据集上的性能与人工标注进行比较，以质量和成本效益为标准。大型语言模型（LLMs）的最新发展激发了将其应用于文本数据集标注和生成的巨大兴趣。与此同时，对视觉语言模型（VLMs）[19]在处理无标签图像数据的能力的研究还很少。 LLaVA-NeXT[10] 是一个开源的 SOTA 多模态模型，相较于 LLaVA-1.5 [9]，在增强视觉推理和 OCR 能力方面取得了更好的效果。 LLaVA-1.5 曾是研究大型多模态模型（LMM）的数据、模型和能力的许多全面研究的基石。鉴于可比的质量和高成本优势，视觉语言模型（VLMs）在需要使用多个标注来提高准确性的场景中，具有替代一个或多个标注源的潜力。受实验规模的限制，结果可能受到AI模型和标注员的主观偏见的影响。
37910编辑于 2024-10-29
来自专栏GPUS开发者
揭秘SmolVLM——小巧高效的视觉语言模型
随着人工智能（AI）技术的飞速发展，视觉语言模型（Vision Language Model, VLM）正在逐渐改变我们与世界交互的方式。这太疯狂了，因为您可以在一个微型边缘设备上运行完全离线的视觉语言模型，功耗仅为 10 瓦。今天，就让我们一起来了解这个小而强大的视觉语言模型——SmolVLM。什么是SmolVLM SmolVLM是一款仅有20亿参数的紧凑型视觉语言模型。例如：在文档视觉问答（DocVQA）测试中达到**81.6%**的准确率，超越了许多更大的模型。视觉处理：图像分块尺寸升级为384x384像素，并采用像素分组（Pixel Shuffle）策略进行压缩处理。
1.8K11编辑于 2024-12-05
来自专栏互联网杂技
深入理解视觉格式化模型
这两章讲解了视觉格式化模型：用户代理在视觉媒体上如何处理文档树。在视觉格式化模型中，文档树中的每个元素根据框模型（box modal）生成0或多个框。一个框的类型部分地影响其在视觉格式化模型中的行为。
1.1K90发布于 2018-04-03
来自专栏科学最Top
基于视觉智能的时间序列基础模型
然而，人类在观察和预测趋势时，往往更倾向于通过视觉表征来理解数据，而非直接处理原始数值。研究表明，人脑在处理视觉信息方面远比处理数值数据更为高效。人脑在处理视觉信息时的效率显著高于处理数值数据，并且视觉皮层能够快速识别模式、形状和颜色，使得图像和视频的处理速度远快于文本和数字。为了应对这些挑战，作者提出了一种创新的视觉智能基础模型 ViTime（Visual Time Foundation Model）。ViTime旨在从视觉智能的角度开创时间序列基础模型研究的新范式。 c) 模型架构： ViTime的模型架构由三个主要模块组成，视觉时间分词器（Visual Time Tokenizer）、解码器（Decoder）以及Refining Module组成：实验结果为了更全面地评估模型的泛化能力作者结论：基于视觉智能的时序模型可能是通往AGI的最佳选择。
36110编辑于 2024-09-18

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

视觉词袋模型简介

通用视觉框架OpenMMLab图像分类与基础视觉模型

什么是视觉语言基础模型？

VLM视觉模型处理过程

盒模型与视觉格式化模型深度解析

BBN：长尾视觉识别模型（CVPR 2020）

视觉格式化模型-控制框

视觉意识的主动推理模型

多模态AI与视觉语言模型

视觉语言模型知识蒸馏方法优化

仿生视觉：生物视觉模型在传感器设计中的应用

从视觉基础模型到医学图像转换,利用视觉基础模型实现高效跨模态MRI合成 !

大视觉模型方向，计算机视觉顶尖期刊 IJCV 特刊征稿

模型越大，性能越好？苹果自回归视觉模型AIM：没错

多图像输入视觉语言模型技术突破

综述推荐：视觉计算中的扩散模型

视觉语言模型能否取代人类标注？

揭秘SmolVLM——小巧高效的视觉语言模型

深入理解视觉格式化模型

基于视觉智能的时间序列基础模型

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐