首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏流川疯编写程序的艺术

    机器视觉4——光的偏振

    回顾《机器视觉3——电磁波》,我们了解到,光波,即电磁波的传播符合波动方程,本质上是一个正弦波。如下图。 从上图,可以看出,光波沿Y轴上下振动,而波的传播方向,沿Z轴传播。

    1.1K21发布于 2020-02-26
  • 来自专栏点云PCL

    SLAM综述(4)激光与视觉融合SLAM

    第二部分重点介绍了Visual SLAM,包括相机传感器,不同稠密SLAM的开源视觉SLAM系统。 第三部分介绍视觉惯性里程法SLAM,视觉SLAM中的深度学习以及未来。 第四部分中,将介绍激光雷达与视觉的融合。 激光雷达和视觉SLAM系统 说到激光雷达和视觉SLAM系统,必不可少的是两者之间的标定工作。 IMU-TK[3][4]还可以对IMU的内部参数进行校准。 论文[5]提出了一种用于单目VIO的端到端网络,融合了来自摄像机和IMU的数据。 ? [4] A. Pretto and G. Grisetti. Calibration and performance evaluation of low-cost imus. In Proc. of: 20th IMEKO TC4 International Symposium, pages 429–434, 2014. 【5】] Changhao Chen, Stefano

    5.6K31发布于 2020-06-12
  • 来自专栏ZackSock

    【计算机视觉处理4】色彩空间转换

    【计算机视觉处理4】色彩空间转换 1、图层操作 在第2篇中提到过,如果是二值图片(黑白图)或者灰度图片,一个像素需要一个8位二进制来表示。而对于彩色图像,一个像素则需要用3个8位二进制来表示。 而HSV色彩空间是一种符合人类视觉感知的模型,这种色彩空间会用色调(Hue,也称为色相)、饱和度(Saturation)、亮度(Value)来表示像素。

    1.7K20发布于 2021-01-08
  • 来自专栏云深之无迹

    ​巴塞罗那自治大学.3D视觉课件.4

    巴塞罗那自治大学,3D视觉课件.1 计算机视觉之三维重建篇.2(摄像机标定) 巴塞罗那自治大学.3D视觉课件.3

    53820编辑于 2022-11-29
  • 来自专栏CreateAMind

    4视觉符号推理数据集超简介

    //github.com/xyang23/CLEVRER-Humans1.0 https://sites.google.com/stanford.edu/clevrer-humans/home 4

    62930编辑于 2023-02-14
  • 来自专栏AIoT技术交流、分享

    LabVIEW图像特征与机器视觉概念(理论篇—4

    为了能减少计算量并提高系统的实时性,几乎所有机器视觉系统对目标的识别、分类及检测都基于从图像中提取的各种特征来进行。 特征提取和特征选择的结果是否有效,直接决定着机器视觉系统进行机器决策的成败。 机器视觉系统开发过程中常见的特征包括像素灰度、边缘、轮廓和形状、纹理、角点、色彩以及各种与图像颗粒相关的属性等,如下图所示: ?

    52130发布于 2021-08-10
  • 来自专栏电子用芯说

    玩转FPGA边缘视觉——4k视频图像抓取

    随着现代图像及视频处理技术的不断发展,人们对图像处理提出了新的要求,最近几年,图像的分辨率和扫描频率都有了较大范围的提升,1080P分辨率的视频已经非常流行,2K甚至4K分辨率的图像也在火热发展中。 下面以米尔VECP边缘视觉套件作为图像处理的硬件平台,带你玩转FPGA之视频图像抓取。 FPGA功能描述图示: MYD-CZU3EG-ISP 提供4K分辨率的摄像头功能,同时输出4K分辨率的图像显示到图像输出接口,下面带一起来体验FPGA的图像抓取和图像显示的操作和应用。  (具体文件路径请看板卡配套资料)  二、操作过程 (1)将开发板的启动模式switch 开关SW1 的1 拨到OFF,2 拨到ON,3拨到OFF,4 拨到ON,设置成TF 卡启动模式; (2) VECP边缘视觉套件简介 MYD-CZU3EG开发板由MYC-CZU3EG核心板加MYB-CZU3EG-C-ISP底板组成。

    2K40发布于 2020-05-11
  • 太能打了:小卡也能跑的视觉模型!Gemma 4 本地视觉实测,截图转HTML

    本文是对谷歌最新发布的 Gemma 4 开源模型进行测试,验证了其在视觉理解和代码生成方面的能力,并与千问进行了对比测试。 Gemma 4视觉能力,我还用同样的 Prompt 和截图,在千问(Qwen 3.5 27B)上进行了对比测试。 4.5 Gemma 4 的其他几个小模型 这里我也测试了 Gemma 4 的其他几个小模型(E2B、E4B),它们的视觉能力和速度表现都不如 26B A4B 版本,尤其是 E 系列的小模型,虽然支持音频输入 当然,这样不难解释,毕竟小模型的视觉编码器参数量更少,E2B 和 E4B 的视觉编码器参数量只有约 1.5 亿,而 26B A4B 的视觉编码器参数量约 5.5 亿,这个差距可能就是导致它们在视觉任务上表现不佳的主要原因了 总结 总的来说,Gemma 4视觉能力确实非常强大,尤其是 26B A4B 版本,在本地运行的情况下,能够实现非常高质量的视觉理解和代码生成。

    2K10编辑于 2026-04-14
  • 来自专栏DeepHub IMBA

    2004年4月计算机视觉论文推荐

    本文将整理4月发表的计算机视觉的重要论文,重点介绍了计算机视觉领域的最新研究和进展,包括图像识别、视觉模型优化、生成对抗网络(gan)、图像分割、视频分析等各个子领域 扩散模型 1、Tango 2: Aligning https://arxiv.org/abs/2404.08197 4、On the Robustness of Language Guidance for Low-Level Vision Tasks: 最近的模型不仅可以推广到任意图像的训练任务,而且它们的中间表示对于其他视觉任务(如检测和分割)也很有用。 与之前依赖属性指导或人工反馈构建数据集的方法不同,设计了一个利用先进的基础模型(GPT-4V和DALL-E 3)的可扩展数据收集管道。 论文还提出了两个评估指标,对齐和一致性,定量评估使用GPT-4V图像编辑对的质量。HQ-Edit的高分辨率图像,丰富的细节,并伴随着全面的编辑提示,大大增强了现有的图像编辑模型的能力。

    33710编辑于 2024-04-30
  • 来自专栏快乐学AI系列

    快乐学AI系列——计算机视觉4)图像分割

    基于边缘的分割方法是通过检测图像中的边缘来进行分割的。边缘通常表示图像中不同区域之间的分界线。在图像中,边缘通常是指图像灰度值变化的位置,如物体边缘、纹理等。

    1.2K00编辑于 2023-04-03
  • 来自专栏目标检测和深度学习

    全球最全计算机视觉资料(4:分割和识别)

    目标检测和深度学习 Segmentation Alexander Kolesnikov, Christoph Lampert, Seed, Expand and Constrain: Three Principles for Weakly-Supervised Image Segmentation, ECCV, 2016. [http://pub.ist.ac.at/~akolesnikov/files/ECCV2016/main.pdf] [https://github.com/kolesman/SEC]

    59010发布于 2018-07-20
  • 来自专栏智能算法

    机器视觉(第4期)----工业相机综述及接口介绍

    上期我们一起学习了镜头的相关知识,戳下链接: 机器视觉(第3期)----图像采集之镜头原理详述 这期我们一起学习相机和接口的相关知识,工业相机是机器视觉系统中的一个关键组件,其最本质的功能就是将光信号转变成有序的电信号 选择合适的相机也是机器视觉系统设计中的重要环节,相机的选择不仅直接决定所采集到的图像分辨率、图像质量等,同时也与整个系统的运行模式直接相关。 线阵: 线阵相机是一类特殊的视觉机器。与面阵相机相比,它的传感器只有一行感光元素,因此使高扫描频率和高分辨率成为可能。线阵相机的典型应用领域是检测连续的材料,例如金属、塑料、纸和纤维等。 4. doc.plcjs.com/doc_apply/apply_other/2009-9/3/099322203453836.htm 3.http://www.mimvm.com/share/skill/176.html 4.

    2.3K120发布于 2018-04-03
  • 来自专栏互联网杂技

    视觉设计师需要懂的4个设计原理

    上周,我的一位读者发了一个问题:如何成为一个好的视觉设计师? 正如我在想如何回答这个问题一样。最近我决定自学普通话。当谈到学习新的语言时,你首先要从基础知识开始。 视觉设计是一种视觉语言。学习视觉设计与学习一门新的语言没有什么不同。 好的视觉设计师并不是天生的。他们是后天养成的。成为好的视觉设计师的关键是需要严谨的。如果你下意识地努力,你将会提升为视觉设计师。 但主要的是利用空间开发自己的直觉来创造视觉的平衡和和谐。 学习排版时,你要注意到间距的重要性。调整字体间距是开发你的眼间距的很大锻炼。 原理3:使用大小建立视觉层次 当创建视觉层次结构时,规模是必须条件。通过利用大小来传达元素之间的视觉关系,建立流程。 规模化是网格有可用性的原因之一。通过网格使元素的比例大小表达的更具有重要性。 原理4:利用颜色传达意义 颜色扮演很多角色。它传达意义,创造情感共鸣,并使设计统一。

    1.9K50发布于 2018-04-03
  • 视觉4D毫米波前融合感知算法设计

    黑芝麻智能通过本文介绍了黑芝麻智能视觉4D毫米波雷达前融合算法,通过多模态特征对齐和时序建模,显著提升逆光、遮挡等复杂场景下的目标检测精度,增强辅助驾驶安全性。 纯视觉的检测方案因其方便部署,硬件成本较低,具有较高分辨率等优势,被广泛应用于目前各大主流辅助驾驶平台中。 黑芝麻智能 4D毫米波雷达相机融合方案黑芝麻智能 4D毫米波雷达相机融合方案,在BEV纯视觉目标检测方案基础上,添加4D毫米波雷达特征提取分支。 结果分类测试指标经过测试,相较于纯视觉模型,4D毫米波雷达相机融合模型,在纵向100米(自车前方),横向+-32米范围内,mAP提升5%,mATE提升2.5%,mAVE提升明显33.85%。 实验结果表明,4D毫米波雷达相机融合方案,相较于纯视觉目标检测方案,有效提升了目标检测的精度,改善了纯视觉模型测距测速的性能,特别是极端场景下模型的表现,如光线局限场景、遮挡场景以及非同平面场景等,提升辅助驾驶的驾驶安全性

    85610编辑于 2025-05-06
  • C-RADIOv4:统一三大模型的视觉骨干技术

    技术概述某机构推出的 C-RADIOv4 是一种新型聚合式视觉骨干网络,通过将三个强教师模型——SigLIP2-g-384、DINOv3-7B 和 SAM3——蒸馏至单个学生编码器中,实现了模型统一。 核心思路简洁:不再需要在视觉语言模型、自监督密集模型和分割模型之间做选择,而是用一个骨干网络同时逼近三者。RADIO 中的聚合蒸馏技术RADIO 系列采用聚合蒸馏技术。 随机多分辨率训练C-RADIOv4 采用随机多分辨率训练策略,而非固定的小分辨率集合。 移位等变损失与MESA机制去除教师噪声从大型视觉模型蒸馏往往会复制其伪影,而不仅是有效结构。SigLIP2 存在边界噪声模式,ViTDet 风格模型则可能产生窗口边界伪影。 通过分散度归一化,均衡了不同教师的影响力,同时保留了视觉语言语义与密集语义。

    51910编辑于 2026-02-12
  • 来自专栏深度学习和计算机视觉

    4个计算机视觉领域用作迁移学习的模型

    导读 使用SOTA的预训练模型来通过迁移学习解决现实的计算机视觉问题。 ? 如果你试过构建高精度的机器学习模型,但还没有试过迁移学习,这篇文章将改变你的生活。至少,对我来说是的。 计算机视觉中的4个预训练模型 这里有四个预先训练好的网络,可以用于计算机视觉任务,如图像生成、神经风格转换、图像分类、图像描述、异常检测等: VGG19 Inceptionv3 (GoogLeNet) EfficientNetB0的特性简要介绍如下: 尺寸:29 MB Top-1 准确率:77.1% Top-5 准确率:93.3% 参数数量:~5,300,000 深度:159 其他的计算机视觉问题的预训练模型 相反,尝试使用这些训练模型,在上面添加一些新的层,考虑你的特殊计算机视觉任务,然后训练。其结果将比你从头构建的模型更成功。 ? —END—

    1.5K40发布于 2021-05-07
  • 来自专栏一点人工一点智能

    小白系列(4)| 计算机视觉和图像处理之间的差异

    计算机视觉和图像处理这两个领域分别为这些应用贡献了新的技术方案。在本教程中,我们将讨论这两个领域的定义以及它们之间的区别。 2.2 计算机视觉 当我们需要识别图像中所表示的内容或检测任何类型的模式时,这就是计算机视觉算法的工作。 正如名字所暗示的,计算机视觉的目标就是“复制”人类视觉。 例如,我们希望计算机视觉系统能够像人类一样识别树上的鸟。 让我们回到之前示例中的花朵图片。假设我们在谈论一个物体检测应用程序(这是计算机视觉任务)。 通常,我们可以找到将图像处理作为后续计算机视觉算法预处理阶段的应用。 例如,我们可以应用图像处理技术来提高亮度和对比度,以便更清楚地查看一些文本。 相比之下,计算机视觉试图解释图片或视频中所代表的内容。

    1.1K10编辑于 2023-09-08
  • 来自专栏山行AI

    MiniGPT-4:使用先进的大型语言模型提升视觉语言理解

    MiniGPT-4:使用先进的大型语言模型提升视觉语言理解 前言 为上一篇介绍MiniGPT-4的文章,在ChatGPT兴起的当下,涌现了一大批围绕着ChatGPT建立的应用项目,通过文章的方式把这些进行一个分类梳理 介绍 •MiniGPT-4 使用一个投影层将 BLIP-2 的冻结视觉编码器与冻结的 LLM,Vicuna 对齐。•我们训练 MiniGPT-4 有两个阶段。 •MiniGPT-4 显示出许多与 GPT-4 类似的新兴视觉语言能力。 overview 入门 安装 1. 第一阶段预训练在第一阶段预训练中,模型使用来自 Laion 和 CC 数据集的图像-文本对进行训练,以对齐视觉和语言模型。要下载和准备数据集,请查看我们的 第一阶段数据集准备指南[13]。 在第一阶段之后,视觉特征被映射并可以被语言模型理解。要启动第一阶段的训练,运行以下命令。在我们的实验中,我们使用了 4 个 A100。

    89630编辑于 2023-06-14
  • 来自专栏AI

    视觉

    学习如何使用 GPT-4 来理解图像介绍具有视觉功能的 GPT-4 Turbo 允许模型接收图像并回答与之相关的问题。在历史上,语言模型系统受限于仅接收单一输入模态,即文本。 对于许多用例来说,这限制了像 GPT-4 这样的模型可用的领域。以前,该模型有时被称为 GPT-4V 或 gpt-4-vision-preview 在 API 中。 在探索视觉理解可以应用于哪些用例时,牢记模型的局限性是很重要的。 限制虽然具备视觉功能的 GPT-4 功能强大,可以在许多情况下使用,但了解模型的局限性是很重要的。以下是我们所知的一些限制:医学图像:模型不适合解释专业医学图像,如 CT 扫描,不应用于医疗建议。 视觉元素:模型可能难以理解图表或文字中颜色或样式(如实线、虚线或点线)变化的情况。空间推理:模型在需要精确空间定位的任务上表现不佳,例如识别国际象棋位置。

    1.4K10编辑于 2024-04-22
  • 来自专栏一点人工一点智能

    小白系列(4)| 计算机视觉和图像处理之间的差异

    计算机视觉和图像处理这两个领域分别为这些应用贡献了新的技术方案。在本教程中,我们将讨论这两个领域的定义以及它们之间的区别。 2.2 计算机视觉 当我们需要识别图像中所表示的内容或检测任何类型的模式时,这就是计算机视觉算法的工作。 正如名字所暗示的,计算机视觉的目标就是“复制”人类视觉。 例如,我们希望计算机视觉系统能够像人类一样识别树上的鸟。 让我们回到之前示例中的花朵图片。假设我们在谈论一个物体检测应用程序(这是计算机视觉任务)。 通常,我们可以找到将图像处理作为后续计算机视觉算法预处理阶段的应用。 例如,我们可以应用图像处理技术来提高亮度和对比度,以便更清楚地查看一些文本。 相比之下,计算机视觉试图解释图片或视频中所代表的内容。

    1.3K00编辑于 2023-09-03
领券