首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器之心

    7 Papers & Radios | 推理速度比Stable Diffusion快2倍;视觉Transformer统一图像文本

    机器之心 & ArXiv Weekly  参与:杜伟、楚航、罗若天 本周论文包括 MIT 造出薄如纸的太阳能电池板;推理速度比 Stable Diffusion 快 2 倍的 Muse 模型等研究。 随后,作者建议在概括性和鲁棒性、可信推理、从反馈中学习和多模态数学推理方面改进目前的工作(第 7 节)。 推荐:深度学习如何慢慢推开数学推理的门。 推荐:推理速度比 Stable Diffusion 快 2 倍,生成、修复图像谷歌一个模型搞定。 值得一提的是,我们的模型在单卡 P100 上实现了 4K 超高分辨率图像的实时推理。 推荐:一键抹去瑕疵、褶皱。 Yu) 2.

    53120编辑于 2023-03-29
  • 来自专栏JadePeng的技术博客

    知识图谱推理与实践 (2) -- 基于jena实现规则推理

    本章,介绍 基于jena的规则引擎实现推理,并通过两个例子介绍如何coding实现。 规则引擎概述 jena包含了一个通用的规则推理机,可以在RDFS和OWL推理机使用,也可以单独使用。 规则推理demo2 -- 关联交易 我们再来看上一篇文章中提到的那个金融图谱: ? 陈华钧老师PPT里,有一个推理任务: 1) 执掌一家公司就一定是这家公司的股东; 2) 某人同时是两家公司的股东,那么这两家公司一定有关联交易; PPT里是使用Drools来实现的,具体可以参见PPT c2)] 执行推理: GenericRuleReasoner reasoner = (GenericRuleReasoner) GenericRuleReasonerFactory.theInstance c2) -> (?c :关联交易 ?

    4.3K30发布于 2020-02-18
  • 来自专栏个人博客

    cloudlflare推理llama2 - plus studio

    cloudlflare推理llama2 最近,cloudlfare悄悄上线了一项新功能,全球网络上的gpu加速推理,显然的,我们可以用它推理llama2,cloudflare也提供了一个库进行推理。 新建一个cloudflare,然后,代码改成下面的,就可以进行推理了 import { Ai } from '. user', content: requestBody.prompt } ] }; let response = await ai.run('@cf/meta/llama-2-

    16510编辑于 2024-02-29
  • 来自专栏叶子陪你玩编程

    2.opencv图像基本操作(2

    Access image properties 获取图片属性 Set a Region of Interest (ROI) 设置感兴趣区域(ROI) Split and merge images 拆分和合并图像 拆分和合并图像 通过使用split可以将图片的通道提取出来,使用merge可以将通道重新合成图片。 ? 上面的方法速度比较慢,通过numpy的数组索引切片,速度会比较快。 ? 小结 img[y,x]获取/设置像素点值,img.shape:图片的形状(行数、列数、通道数),img.dtype:图像的数据类型。 img[y1:y2,x1:x2]进行ROI截取cv2.split()/cv2.merge()通道分割/合并。更推荐的获取单通道方式:b = img[:, :, 0]。 (全文完)

    42720发布于 2020-05-12
  • 来自专栏新智元

    【Science】DeepMind关系推理ANN,在图像理解中击败人类

    【新智元导读】人类通常相当擅长关系推理,但对 AI 来说是难点。谷歌 DeepMind 研究人员提出了用于关系推理的人工神经网络。 这些问题需要关系推理,这对于 AI 来说是难点。现在,谷歌 DeepMind 的研究人员已经开发了一种简单的算法来处理这种推理,而且它已经在复杂的图像理解测试中打败了人类。 它拥有处理图像、分析语言甚至学习游戏的专门架构。在这种情况下,新的“关系网络”设计用来比较各个场景中的每一对对象。 对于这个任务,关系网络与另外两种类型的神经网络组合:一个用于识别图像中的对象,一个解释问题。在许多图像和问题上,其他机器学习算法在 42% 到 77% 的时间是正确的。人类取得了 92% 的好成绩。 “我希望可以实现自己生成策略的模型”,他表示:“ DeepMind 正在致力于一种特定类别推理的建模,并非普遍意义上的关系推理。但是向着正确方向迈进的及其重要的一步”。

    1.1K170发布于 2018-03-28
  • 来自专栏CreateAMind

    实现系统2(system2)主动推理与认知控制

    随后,我们描述了三个驾驶任务的模拟实验,分别展示了:没有认知控制的主动推理智能体的行为表现(模拟 1),具有仅考虑控制信号设定的简单认知控制的智能体(模拟 2),以及更复杂的(元)认知控制模型,它还包括是否启用深思熟虑和认知控制的决策机制 在下文中,我们介绍了三个面对驾驶任务的主动推理智能体: 第一个使用的是没有认知控制机制 的生成模型(模拟1), 第二个使用的是简单元认知控制模型 (模拟2), 第三个使用的是完整的元认知控制模型 (模拟 图2D展示了主动推理智能体在驾驶任务中所经历的认知冲突程度 。 模拟 2:具有简单元认知控制的主动推理 在这里,我们在图1B所示的主动推理生成模型基础上,增加了一个用于(简单)元认知控制层级 的回路,见图3。 模拟 2 的结果 在此部分,我们使用带有(简单)元认知控制 的主动推理模型来模拟驾驶任务。模拟结果如图4所示。

    14610编辑于 2026-03-11
  • 来自专栏点云PCL

    PCL深度图像2

    (1)点云到深度图与可视化的实现 区分点云与深度图本质的区别 1.深度图像也叫距离影像,是指将从图像采集器到场景中各点的距离(深度)值作为像素值的图像2.点云:当一束激光照射到物体表面时,所反射的激光会携带方位、距离等信息。 深度图像经过坐标转换可以计算为点云数据;有规则及必要信息的点云数据可以反算为深度图像 rangeimage是来自传感器一个特定角度拍摄的一个三维场景获取的有规则的有焦距等基本信息的深度图。 深度图像的像素值代表从传感器到物体的距离或者深度值。 RangeImage类的继承于PointCloud主要的功能实现一个特定的视点得到的一个三维场景的深度图像,继承关系为 ? 所以我们知道有规则及必要信息就可以反算为深度图像

    2.1K50发布于 2019-07-31
  • 来自专栏机器学习实践二三事

    数字图像学习2

    二值化: bw = im2bw(f); %默认的二值 bw1 = im2bw(f,graythresh(f)); %使用全局阈值处理的logical图像 ? 从RGB空间到HSV空间: hsv = rgb2hsv(f); ? 获得其相应的H 、S和 V分量 subplot(2,2,1),imshow(hsv(:,:,1)) subplot(2,2,2),imshow(hsv(:,:,2)) subplot(2,2,3),imshow (hsv(:,:,3)) subplot(2,2,4),imshow(hsv) ? 当然还可以转到YCbCr空间, cbr = rgb2ycbcr(f); ? 转到NTSC彩色空间, ntsc = rgb2ntsc(f); ?

    45520发布于 2019-05-26
  • 来自专栏Mybatis学习

    Tensorflow2——图像定位

    图像定位 1、单张图片图像定位 2、随意尺度图片定位 3、批量图片定位 一级目录 给定一副图片,我们要输出四个数字(x,y,w,h),图像中某一个点的坐标(x,y),以及图像的宽度和高度,有了这四个数字 2、随意尺度图片定位 (代码紧接上) img=tf.image.resize(img,(224,224)) img=img/255 plt.imshow(img) ? 3、批量图片定位 创建输入管道 数据读取与预处理 获取图像的路径 images=glob.glob(". out_1,out_2,out_3,out_4=list(zip(*labels)) #把xmin,ymin,xmax,ymax分别弄在一起 out_1=np.array(out_1) out_2=np.array ((out_1,out_2,out_3,out_4)) ?

    1.1K10发布于 2021-06-21
  • 来自专栏机器之心

    推理速度比Stable Diffusion快2倍,生成、修复图像谷歌一个模型搞定,实现新SOTA

    与建立在级联像素空间(pixel-space)扩散模型上的 Imagen (Saharia et al., 2022) 或 Dall-E2 (Ramesh et al., 2022) 相比,Muse 由于使用了离散 et al., 2022) 快 2 倍。 研究者认为:Muse 比 Stable Diffusion 推理速度更快是因为 Stable Diffusion v1.4 中使用了扩散模型,在推理时明显需要更多次迭代。 除了以上组件外,Muse 还包含可变掩码比率组件、在推理时迭代并行解码组件等。 实验及结果 如下表所示,与其他模型相比,Muse 缩短了推理时间。 下图是 Muse 与 Imagen、DALL-E 2 在相同 prompt 下生成结果的例子。 感兴趣的读者可以阅读论文原文,了解更多研究细节。

    57010编辑于 2023-03-29
  • 原生多模态推理:Gemini 3 如何“理解世界”而非“拼接图像”?

    @TOC开篇引言在人工智能领域,多模态推理一直是一个重要的研究方向。传统的多模态模型通常将不同模态的数据(如文本、图像、音频)进行简单的特征拼接,然后进行联合推理。 Gemini 3 是一种新型的多模态推理框架,它通过原生多模态推理技术,能够更好地“理解世界”,而不仅仅是“拼接图像”。 = self.key(key) V = self.value(value) attention_scores = torch.matmul(Q, K.transpose(-2, 通过结合用户的历史听歌记录(文本)、专辑封面(图像)和音乐片段(音频),Gemini 3 能够更准确地理解用户的音乐偏好,并推荐符合其口味的音乐。 总结本文深入探讨了原生多模态推理:Gemini 3 如何“理解世界”而非“拼接图像”?的相关技术,从原理到实践,从基础到进阶,希望能够帮助读者全面掌握这一技术。

    28210编辑于 2025-12-25
  • 来自专栏JavaEdge

    人工智能导论 (四) - 基于谓词逻辑的推理(待更新)1 推理方式及其分类2 归纳演绎推理

    1 推理方式及其分类 2 归纳演绎推理

    96120发布于 2018-12-27
  • 来自专栏python开发者

    【CCD图像检测】2:黑白图像检测的硬件设计

    小车以模拟CCD摄像头为传感器,模拟式的采集先将一路视频信号引用图2电路,通过其可以将摄像头输出的复合视频信号进行分离,得到独立的同步信号和视频模拟量信号,然后通过逐行采样来完成整幅图像的采集。 那么,要求滞后视频信号能在T0 = 3~5个RC内能够达到最值,而T0<3~4µs.大致算一下: 3*10-6 = 4*R2*510*10-12    得到R2=1.47K 能在3µs时间后,电压达到 原始跳变点的0.98    得到R2=1.96K 能在4µs(刚好是一个近处的黑线视频信号的宽度)时间后,电压达到原始跳变点的0.98     所以,一般 R2就取其中的某个值。 在实际中,配合LCD,调节R2电位器,结果发现R2=1.85K时有比较好的效果,符合理论计算结果。    关于R4参数的确定方法。 软件层面: (2)利用新的数据结构,用时间换空间,这样在不采用计数器也能利用有限的空间存储更多的数据,这样就自然提高了图像采集的精度。

    1.6K10编辑于 2022-05-10
  • 来自专栏贾志刚-OpenCV学堂

    图像编辑器 Monica 之生成漫画风格的图像、以及使用 GPU 实现推理

    图像编辑器 Monica Monica 是一款跨平台的桌面图像编辑软件(早期是为了验证一些算法而产生的)。 ONNXRuntime 部署的模型都支持使用 GPU 来加速推理。 > #include<string> #include<math.h> #include<opencv2/imgproc.hpp> #include<opencv2/highgui.hpp> //#include ,将图像转换成漫画的风格。 使用 GPU 推理 在使用 GPU 做推理时,需要有个前提就是确保安装了 CUDA、cuDNN 以及 CUDA 对应的 ONNXRuntime 版本。

    10600编辑于 2026-04-02
  • 来自专栏码出名企路

    OpenCV源码系列|图像拼接2

    四张图拼接 代码实现: #include <iostream> #include <opencv2/imgproc/imgproc.hpp> #include <opencv2/highgui/highgui.hpp 2-2.png"); row[1][2] = imread("../25/2-3.png"); row[1][3] = imread("../25/2-4.png"); row[ 1][4] = imread("../25/2-5.png"); row[2][0] = imread("../25/3-1.png"); row[2][1] = imread(".. /25/3-2.png"); row[2][2] = imread("../25/3-3.png"); row[2][3] = imread("../25/3-4.png"); ; i = i + 1) { for (j = 0; j < 4; j = j + 1) { //图像尺寸要保持一致

    38030编辑于 2022-06-16
  • 《数字图像处理》第2章-数字图像基础

    2.1.2 人眼中图像的形成 图像在人眼中形成的过程是倒立、缩小的实像。 = data.coins().astype(float) / 255.0 # 调整图像2的大小以匹配图像1 self.image2 = transform.resize 图像变换") print("-" * 50) # 使用较小的图像以便快速计算 small_img = self.image1[::2, axes[1, 2].set_title('逆DCT恢复图像', fontweight='bold') axes[1, 2].axis('off') flatten())[0, 1] print(f"图像1和图像2的相关系数: {correlation_coefficient:.4f}") # 运行所有演示 math_tools =

    14410编辑于 2026-01-21
  • 《数字图像处理》第 2 章 - 数字图像基础

    今天给大家梳理《数字图像处理》第 2 章的核心内容 —— 数字图像基础。这一章是整个数字图像处理的入门基石,涵盖了从视觉感知到图像数字化、像素关系、数学工具等核心知识点。 .imshow(f, cmap='gray', vmin=0, vmax=1) axes[2].set_title('最终图像 f(x,y)=i×r', fontsize=12) axes[2].axis (适配新图像尺寸) ===================== fig, axes = plt.subplots(2, 2, figsize=(12, 10)) # 空间分辨率 axes[0,0].imshow 2, figsize=(12, 10)) # 低分辨率原图 axes[0,0].imshow(img_low, cmap='gray') axes[0,0].set_title(f'低分辨率图像({ (im3, ax=axes[2], shrink=0.8) plt.tight_layout() plt.show() 2.6 数字图像处理常用数学工具简介 2.6.1 数组运算与矩阵运算的区别 数组运算

    17110编辑于 2026-01-21
  • 来自专栏新智元

    DeepMind发布SIMA 2!打通「感知-推理-行动-反思」闭环

    新智元报道 编辑:peter东 【新智元导读】Deepmind推出的SIMA 2,让智能体能在虚拟环境(商业游戏)中,边聊天边进行复杂的多模态推理。 而近日新推出的SIMA 2,通过整合Gemini的多模态推理能力,让SIMA正从一个指令执行者演变为一个互动游戏伙伴。 除了执行指令,SIMA 2还可以与用户多轮对话,一边推理自身行为及其所处环境,一边描述其意图执行的操作,并详细说明其完成目标的步骤。 为了测试 SIMA 2 的泛化能力极限,Deepmind的研究者将其与 Genie 3 结合使用,Genie 3 可以根据单个图像或文本提示实时生成新的 3D 模拟世界。 不过,研究者也承认,SIMA 2中的智能体在处理超长时间跨度、复杂的任务时,仍然面临需要大量多步骤推理和目标验证等挑战。 此外,SIMA 2 对交互历史的记忆相对较短。

    21210编辑于 2026-01-13
  • 来自专栏未来先知

    视频到图像 ,SAM 2 优化 3D 图像标注流程 !

    在本论文中,作者将这个模型应用于3D医学图像标注,并将其作为3D Slicer流行标注软件的一个扩展提供。 为了提高标注医疗图像的准确性和效率,研究行人已在医学图像数据[4, 14]上对 SAM 进行了微调,并将其自动模型集成到3D切片器中,这是一个用于分析和可视化医学图像的开放式软件平台[3]。 用户可以任意使用任何SAM或SAM 2模型的2D图像预测器进行切片分割。SAM 22D图像分割外,还提供视频分割功能。当给定适当的提示输入时,它可以让用户跟踪视频帧中的单个或多个行人。 2D Segmentation 当用户在3D Slicer中输入提示信息时,他们可以对3D医疗图像2D切片进行分割。 Refinement SAM和SAM 2提供了医疗图像分割的 Mask ,即使用户给它们更多的提示,可能 still 存在错误或噪声。在这种情况下,手动分割工具仍然需要以获得最终分割结果。

    91710编辑于 2024-09-11
  • 来自专栏码出名企路

    OpenCV源码系列|图像HDR-2

    HDR动态调整图像方法1见:OpenCV源码系列|图像HDR-1 本文继续介绍方法2:输入一系列不同曝光时间的图像及曝光时间,最后HDR调整为一幅清晰图像。 由于输入图像太多,本文仅仅列出几个输入图像作为参考。 输入图像 输出图像 代码实现: #include "opencv2/photo.hpp" #include "opencv2/imgcodecs.hpp" #include "opencv2/highgui.hpp @input | | Input directory that contains images and exposure times. }" ); //加载图像和曝光时间 HDR图像 Mat hdr; Ptr<MergeDebevec> merge_debevec = createMergeDebevec(); merge_debevec->process

    51220编辑于 2022-06-16
领券