首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏快乐学AI系列

    快乐学AI系列——计算机视觉4)图像分割

    本系列是由“MATRIX.矩阵之芯”精炼的AI快速入门系列,特色是内容简洁,学习快速。 相关要求:学员需要掌握Python编程基础,另外还需要有一定的线性代数、概率论基础。

    1.1K00编辑于 2023-04-03
  • 来自专栏优图实验室的专栏

    视觉AI,第一!

    刚刚,腾讯的视觉AI能力得到了国际权威行业研究机构IDC的认可。 在IDC发布的“2021年亚太地区(不含日本)视觉人工智能软件平台供应商”评估报告中,腾讯的视觉AI能力位列中国厂商战略维度第一! 作为中国最大的人工智能服务提供商之一,腾讯云在AI领域的技术和应用一直走在前列。目前,腾讯云AI已提供了超过300多项标准化AI开放能力和80+AI行业解决方案。 在本次的评估中,依托腾讯优图实验室等顶尖实验室多年的技术研究和落地探索,腾讯云AI为数十万家内外部客户提供AI技术服务和丰富的计算机视觉产品组合,包括人脸识别、人脸核身、图像视频处理和分析、OCR与AI 泛娱乐等,同时也为国家人口普查、健康码、粤港澳小程序等提供核心的自研AI技术能力,为金融、工业、汽车等传统企业提供端到端的解决方案,腾讯云都提供了非常丰富的视觉AI产品组合,这也是IDC给出高分的一大原因 作为腾讯顶级的人工智能实验室,腾讯优图实验室始终专注基础研究、产业落地两条腿走路的发展战略,持续输出顶尖的视觉AI能力。

    1.1K30发布于 2021-10-28
  • 来自专栏流川疯编写程序的艺术

    机器视觉4——光的偏振

    回顾《机器视觉3——电磁波》,我们了解到,光波,即电磁波的传播符合波动方程,本质上是一个正弦波。如下图。 从上图,可以看出,光波沿Y轴上下振动,而波的传播方向,沿Z轴传播。

    1.1K21发布于 2020-02-26
  • 开源工具CoSyn实现GPT-4V级视觉AI平民化

    CoSyn:开源工具实现GPT-4V级视觉AI技术突破研究人员开发出一款突破性工具,使开源AI系统能够匹配或超越GPT-4V和Gemini 1.5 Flash等专有模型的视觉理解能力,可能重塑开源与闭源 该工具名为CoSyn(代码引导合成),解决了AI开发中的关键瓶颈:缺乏高质量训练数据来教导机器理解科学图表、医疗图示和金融文档等复杂视觉信息。 这一突破正值企业日益需要能够理解和推理复杂视觉信息的AI系统之际,这种能力对从自动化文档处理到能够自主导航数字界面的AI智能体都至关重要。 CoSyn训练模型在关键基准测试中超越GPT-4V和Gemini结果令人瞩目。 研究团队决定将一切开源反映了关于AI开发的更广泛理念。随着Yang在完成博士学位后准备全职加入某研究所,对开放科学的承诺仍然是他们使命的核心。"目前,这些视觉语言模型相当脆弱。

    20810编辑于 2025-09-16
  • 嵌入式AI视觉落地的那些事儿——直面AI视觉落地难的挑战

    一、QT界面开发:算法与界面必须解耦嵌入式AI应用通常需要图形界面,QT是常见选择。但开发中容易陷入一个误区:把算法函数直接写在界面类的响应函数里。点一下“开始检测”,界面就卡住,直到检测完成才能动。 三、嵌入式平台适配:每块板子有自己的脾气RK3588和Jetson Orin是当前主流的嵌入式AI平台,但开发体验差异不小。交叉编译环境搭建就是个开端,库依赖容易出问题。 五、从原型到产品,每一步都不能省嵌入式AI产品开发,不是“写个算法然后拷过去”那么简单。界面要响应快,算法要跑得稳,硬件资源要榨干,还要考虑设备长时间运行的散热和稳定性。 高培觉得嵌入式AI开发需要的不是单点技术,而是全局视角:QT界面、OpenCV算法、模型部署、多线程优化、硬件加速、系统稳定性,缺一不可。

    5000编辑于 2026-03-23
  • 来自专栏点云PCL

    SLAM综述(4)激光与视觉融合SLAM

    第二部分重点介绍了Visual SLAM,包括相机传感器,不同稠密SLAM的开源视觉SLAM系统。 第三部分介绍视觉惯性里程法SLAM,视觉SLAM中的深度学习以及未来。 第四部分中,将介绍激光雷达与视觉的融合。 激光雷达和视觉SLAM系统 说到激光雷达和视觉SLAM系统,必不可少的是两者之间的标定工作。 IMU-TK[3][4]还可以对IMU的内部参数进行校准。 论文[5]提出了一种用于单目VIO的端到端网络,融合了来自摄像机和IMU的数据。 ? [4] A. Pretto and G. Grisetti. Calibration and performance evaluation of low-cost imus. In Proc. of: 20th IMEKO TC4 International Symposium, pages 429–434, 2014. 【5】] Changhao Chen, Stefano

    5.4K31发布于 2020-06-12
  • 来自专栏智慧物联产品&方案

    AI视觉识别有哪些工业应用

    AI视觉识别,主要是利用人工智能算法对图像或视频数据进行分析和处理,以提取关键信息并执行筛选、判断、预警等任务。AI视觉识别涵盖多种应用,如人脸识别、目标检测和识别、图像分割、行为识别、视频分析等。 本篇就简单介绍一下AI视觉识别的应用场景。1、质量控制和检验在制造领域,AI视觉识别可用于检查生产线上的产品是否存在缺陷,确保产品质量稳定,减少残次品。 4、智慧医疗AI视觉识别还可用于医学图像的识别检测和诊断,包括识别判断病人的X光片、MRI 和 CT 扫描等图像,实现病情评估和提供治疗建议。 5、智慧零售在零售领域,AI视觉识别可以通过监控店铺客流、货架消耗来分析营销和库存水平,提升店铺经营效率。6、智慧农业AI视觉识别可以通过空中或地面图像,识别监测作物生长状态、健康状况、病虫害情况等。 7、自动驾驶汽车AI视觉可以帮助车辆感知环境、检测障碍物并安全导航,这已成为智能化新能源车的必备能力之一。以上人工智能视觉识别在不同行业的多样化应用的几个例子。

    1.6K10编辑于 2023-11-27
  • 来自专栏理论坞

    视觉数据和AI的“杀手应用”

    虽然许多人正在寻找“杀手级”的视觉,但更有可能视觉AI和计算机的“杀手级应用”。 ? 今天有AI模块的app,只需拍摄一个照片,便可在几秒钟内告诉你狗的种类,或植物的种类。 例如,最前沿的AI系统采用在人脑神经网络之后建模的深度学习或深层神经网络。(当然,他们没有任何地方接近人类相同的能力)。 AI系统和视觉数据 视觉对于我们具有非常重要的意义,这解释了为什么65%的人都是视觉工作者。 要做到这一点,它需要更高质量的视觉数据和复杂的算法将信息翻译成有意义的东西。 当涉及到AI,领先的科技公司都在这个领域寻求突破和探索。他们知道,AI是一个改变我们生活和工作的游戏规则。 虽然许多人正在寻找“杀手级”视觉,但我想说,视觉AI和计算领域的“杀手级” 。 我们已经依赖于视觉内容。然而,飞飞预测,随着相机技术和传感器的使用越来越多,未来将更加依赖它。

    52930发布于 2018-08-06
  • 来自专栏做数据的二号姬

    认真聊AI | 计算机视觉

    计算机视觉是一门研究如何对数字图像或视频进行高层理解的交叉学科。 据说人一生中70%的信息都是通过看获得的,很容易联想到,对于致力于和人类一样拥有智能的AI也很看重看得能力。 实际上,计算机视觉的技术在生活的方方面面都有着应用,如指纹识别、车牌识别、人脸识别、视频监控、自动驾驶、增强现实等。 视觉任务处理对人类来说非常简单,但是对计算机来说确很复杂。 尽管计算机视觉任务繁多,但大多数任务本质上可以建模为广义的函数拟合问题。即对任意输入图像X,需要学习一个以Θ为参数的函数F,使得y=F0(X)。 除此之外,基于深度学习的计算机视觉应用也比较多,神经网络之类的方法在计算机视觉上的应用还是比较广的。 比如现在应用比较广的人脸识别技术,仅从步骤上来说,也就是简单的几个步骤: 第一步,人脸检测。 尽管深度学习给计算机视觉带来了很多革命性的改变,但是目前的计算机视觉领域还是一个以来大规模、强监督的数据路线上。从这个角度上来说,计算机视觉可能更像一个劳动密集型的产业,大量依赖于数据标注。

    32200编辑于 2025-07-14
  • 来自专栏人工智能

    多模态AI视觉语言模型

    然而,真实世界的智能需要跨越感官的界限,实现视觉、语言、声音等多种信息的统一理解与生成。 多模态AI正是这一方向的核心技术,CLIP、DALL-E、GPT-4V等模型的出现标志着我们进入了多模态智能的新时代。 CLIP在4亿图文对上训练,学习将图像和文本映射到共享的嵌入空间。 视觉问答(VQA) 给定图像和自然语言问题,生成答案。 从零样本分类到图像生成,从视觉问答到多模态对话,多模态技术正在不断拓展AI的能力边界。 未来,随着模型规模的扩大和训练数据的积累,多模态AI将在更多领域发挥作用,为人机交互带来革命性变化。

    41810编辑于 2026-01-21
  • 来自专栏CreateAMind

    彻底解决AI视觉深度估计

    [3,4],⽽颞下皮层则⽀持基于相对差异创建 3D 形状对象之间[2,5]。 然后,这种信念会产生相对于该程度的齐次变换自由 (DoF),乘以特定参考中表达的第二个信念框架,如图 4 所示。 Figure 4. 具有齐次变换的广义模型的层次关系的表示。 这反映了这样一个事实,即生物中央凹中心的受体远多于周边视觉的受体,而周边视觉之前是用指数关联建模的[25]。 在均匀条件下,视觉噪声设置为零。 4. Discussion 我们提出了一种分层主动推理模型,用于在投影相机平面的状态空间中进行深度估计和目标固定操作。

    75911编辑于 2024-04-11
  • 来自专栏ZackSock

    【计算机视觉处理4】色彩空间转换

    【计算机视觉处理4】色彩空间转换 1、图层操作 在第2篇中提到过,如果是二值图片(黑白图)或者灰度图片,一个像素需要一个8位二进制来表示。而对于彩色图像,一个像素则需要用3个8位二进制来表示。 而HSV色彩空间是一种符合人类视觉感知的模型,这种色彩空间会用色调(Hue,也称为色相)、饱和度(Saturation)、亮度(Value)来表示像素。

    1.6K20发布于 2021-01-08
  • 来自专栏云深之无迹

    ​巴塞罗那自治大学.3D视觉课件.4

    巴塞罗那自治大学,3D视觉课件.1 计算机视觉之三维重建篇.2(摄像机标定) 巴塞罗那自治大学.3D视觉课件.3

    50620编辑于 2022-11-29
  • 来自专栏CreateAMind

    4视觉符号推理数据集超简介

    //github.com/xyang23/CLEVRER-Humans1.0 https://sites.google.com/stanford.edu/clevrer-humans/home 4 CRIPP-VQA: Counterfactual Reasoning about Implicit Physical Properties via Video Question Answering 欢迎一起开发符号AI

    59630编辑于 2023-02-14
  • 来自专栏快乐学AI系列

    快乐学AI系列——计算机视觉4.篇外)什么是“卷积神经网络”

    本系列是由“MATRIX.矩阵之芯”精炼的AI快速入门系列,特色是内容简洁,学习快速。 相关要求:学员需要掌握Python编程基础,另外还需要有一定的线性代数、概率论基础卷积神经网络(Convolutional Neural Network,CNN)是一种深度学习算法,常用于计算机视觉领域的图像分类 最后,我们得到一个新的图像,大小为4x4像素,像素值表示为矩阵: -6 -8 -10 -4 -11 -13 -15 -9 -16 -18 -20 -14 -21 -23 -25 -19这个矩阵经过卷积操作后提取了图像的边缘特征 因此,卷积神经网络成为了许多计算机视觉、语音识别、自然语言处理等领域中最为流行的深度学习模型之一。在卷积神经网络中,卷积层和池化层的使用可以减少参数数量和计算量,从而使网络更加高效。 卷积神经网络是一种非常强大的深度学习模型,可以在计算机视觉、语音识别、自然语言处理等领域中取得非常优秀的成果。

    63210编辑于 2023-04-05
  • 视觉智能·场景进化:AI 视频系统训练平台重塑智能视觉新范式

    AI 视频系统训练平台通过构建端到端的视频理解与生成训练体系,实现了从"单帧识别"到"时序理解"、从"通用模型"到"场景专家"的技术跨越,为智能视频分析提供全方位的模型训练支持。 核心痛点解析场景迁移性能差:在特定场景训练的模型,迁移到新环境时性能急剧下降标注成本极其高昂:视频标注需要逐帧处理,时间成本是图像的数十倍时序关系建模困难:传统方法难以有效捕捉视频中的长时序依赖关系多模态融合低效:视觉 工业视觉检测针对制造业质量检测需求,提供小样本缺陷检测训练方案。通过生成对抗网络合成缺陷样本,解决正负样本不均衡问题,使缺陷检出率提升至 99.3%,误报率降至 0.02%。 通过对抗训练提升生成质量,使 4K 超分效果在 PSNR 指标上提升 4.2dB。

    34410编辑于 2025-10-30
  • 来自专栏燧机科技-视频AI智能分析

    加油站ai视觉识别系统

    加油站ai视觉识别系统通过yolov7网络模型深度学习,加油站ai视觉识别系统对现场画面中人员打电话抽烟等违规行为,还有现场出现明火烟雾等危险状态。 加油站ai视觉识别系统还可以对卸油时灭火器未正确摆放、人员离岗不在现场、卸油过程静电释放时间不足等不规范情形进行智能识别记录。

    65230编辑于 2023-03-05
  • HarmonyOS NEXT AI基础视觉服务-人脸识别

    案例描述这是一个基于AI基础视觉服务实现的人脸识别案例,通过调用设备相册选择图片后检测图像中的人脸信息并展示结构化识别结果。实现步骤:1. image.createImageSource(fileSource.fd);// 生成像素图格式数据const chooseImage = await imageSource.createPixelMap();4. 人脸检测核心实现// 初始化人脸检测器faceDetector.init();// 配置视觉识别参数const visionInfo: faceDetector.VisionInfo = { pixelMap

    44810编辑于 2025-03-30
  • 来自专栏AI掘金志

    万亿 AIoT,「AI 视觉」企业群雄逐鹿

    大华:以视频为核心,密集发力智慧物联 今年4月,大华也在年报中,将自己的主营业务定义为‘’智慧物联”。 智慧物联的大乱斗时代,在明确自身能力边界后,大华选择了克制。 今年4月,2022旷视企业业务合作伙伴大会上,印奇抛出“AIoT= AI+IoT+空间”的等式。 为打好AIoT这场持久仗,旷世在7月进一步提出更具概括性的“2+1”技术科研体系。 在城市管理的各场景中,商汤以AI大装置作为基础,基于方舟城市开放平台建设城市级的视觉中枢。 在“城市大脑”是未来的主战场,“城市视觉”是发力点的共识下,紫光华智于2020年11月发布AI视觉中枢全栈解决方案。 新一代AI视觉中枢最大的特点,就是让感知海量数据的“大脑”更加智慧。

    1.3K20编辑于 2022-11-08
  • 来自专栏MixLab科技+设计实验室

    视觉特效·AI视频抠图·换脸

    好学的 ace 我最近在学习blender里的VFX,秀下我的学习成果~~ 视觉特效 Visual effects, 简称VFX 合成真人拍摄的镜头和计算机生成图像,以创造虚拟的真实场景。 其实不用呀,可以好好研究下AI视频抠图的技术 shadow eva 大批量的绿幕视频就有了。。 无界 配合上AI换脸之类的,素材更多了~~ 3D实时换脸技术 对,如果是偏艺术的素材,还可以有这种复活名画的玩法~~ shadow AR艺术滤镜 使用mediapipe的facemesh模型实现的

    4.9K10发布于 2021-08-26
领券