ICCV 2023:TinyCLIP: CLIP Distillation via Affinity Mimicking and Weight Inheritance 1. 论文信息 2.
ICCV 2023: StyleInV: A Temporal Style Modulated Inversion Network for Unconditional Video Generation
ICCV 2023: Transferable Decoding with Visual Entities for Zero-Shot Image Captioning 1. 论文信息 2.
ICCV 2023: SVDiff: Compact Parameter Space for Diffusion Fine-Tuning 1. 论文信息 2.
【导读】当地时间 10月 22 日到10月29日,两年一度的计算机视觉国际顶级会议 International Conference on Computer Vision(ICCV 2017)在意大利威尼斯开幕 Recognition Georgia Gkioxari Sun 22 Oct Half Day, AM Mathematics of Deep Learning René Vidal 详情查看:http://iccv2017
这篇文章是我入门目标检测接触的第一篇论文,也是我本科毕设的baseline,因此文章中可能有很多看起来很幼稚的问题,感谢师兄当时的耐心!
作者 | 岳晓宇 编辑 | 王晔 摘要:Transformer这种具有强力全局编码能力的网络最近被应用于计算机视觉任务,例如ViT直接使用了一个Transformer来解决图像分类任务。为了处理二维图像数据,ViT简单地将图像分割,并映射成一个一维的序列。这种简单的分割使得图像固有的结构信息丢失,使得网络很难关注到重要的物体区域。为了解决这个问题,本文提出了一种迭代渐进采样策略来定位重要区域。具体来说,本文提出的progressive sampling模块,在每次迭代都会利用全局信息对采样位置进行更新,从而
ICCV | TupleInfoNCE 的对比多模态融合 论文作者:Yunze Liu, Qingnan Fan, Shanghang Zhang, Hao Dong, Thomas Funkhouser
码隆科技在 ICCV 2019 上提出了一种单阶段模型——卷积字符网络 - CharNet(Convolutional Character Networks)。 ICCV, pages 5238–5246, 2017.2, 3 [4]P. Lyu, M. Liao, C. Yao, W. Wu, and X. Bai.
在这里先整理一些主题系列论文: ICCV 2017- 3D Vision Oral论文如下: Globally-Optimal Inlier Set Maximisation for Simultaneous Scale Bundle Adjustment by Global Camera Consensus Practical Projective Structure From Motion (P2SfM) ICCV for Video Object Detection Reasoning About Fine-Grained Attribute Phrases Using Reference Games ICCV Gradient-Based Localization Image-Based Localization Using LSTMs for Structured Feature Correlation ICCV 原文地址:http://openaccess.thecvf.com/ICCV2017.py
标题:DiffusionDet: Diffusion Model for Object Detection
Neural Radiance Fields (NeRF) 最近在计算机视觉领域获得了极大的关注,它提供了一种崭新的合成真实世界场景新视角的方法。然而,NeRF的一个局限性是它需要准确的相机位姿来学习场景表征。本文提出了一种 Bundle-Adjusting Neural Radiance Fields(BARF)算法,用于从不够准确(甚至是未知)的相机姿势中训练NeRF,可用于同时学习3D表征以及完成相机注册。本文从理论上建立了与经典图像对齐(image alignment)之间的联系,并阐明从粗到细的相机注册也适用于NeRF。此外,本文还发现,在NeRF中简单地使用位置编码对合成目标有负面影响(本文有改进)。在合成和真实世界数据上的实验表明,BARF可以有效地优化神经场景表征,并同时解决摄像机的姿势的错位。这使得视频序列的视图合成和来自未知摄像机姿势的定位成为可能,这为视觉定位系统(如SLAM)开辟了新的途径,也为密集的3D重建提供了潜在的应用。
作者:Justin Kerr, Chung Min Kim 等 来源:ICCV 2023 论文题目:LERF: Language Embedded Radiance Fields 论文链接:https:
[https://arxiv.org/abs/1708.02002](https://arxiv.org/abs/1708.02002)
本文是华为诺亚方舟实验室联合北京大学和悉尼大学在ICCV2019的工作。 摘要 在计算机视觉任务中,为了将预训练的深度神经网络模型应用到各种移动设备上,学习一个轻便的网络越来越重要。
时隔近4个月,ICCV 2021 最佳学生论文Pixel Perfect SFM (pixsfm)终于开源了,这篇文章介绍了一种对SFM模型进行优化的新方式:借助deep features,引入了优化2D
作者 | 邱海波 编辑 | 王晔 本文是对发表于计算机视觉领域顶级会议ICCV 2021的论文“SynFace: Face Recognition with Synthetic Data” (基于生成数据的人脸识别
传统的混合视频编码框架和现有的基于深度学习的视频压缩(DLVC)方法都遵循相同的视频压缩方法,通过设计各种模块来减少空间和时间冗余。它们使用同一帧或相邻帧中的相邻像素作为参考来导出帧内或帧间预测值。由于视频序列是以高帧率(例如30fps或60fps)捕获的,因此同一场景可能出现在时域中高度相关的数百个帧中。然而,现有的压缩策略并不能很好地去除块级或帧级预测中的场景冗余。
Curious Representation Learning for Embodied Intelligence
作者:lucas du | 已授权转载(源:知乎) https://zhuanlan.zhihu.com/p/422929082 这次带队参加了ICCV2021的UVO(Unidentified 数据集详细介绍请参看论文:https://arxiv.org/abs/2104.04691 基于这个数据集,Facebook于ICCV 2021举办了UVO Challenge,比赛分为两个赛道,第一个为基于图片的开放世界实例分割 这样做的好处主要有三: 将目标检测网络的训练与分割网络的训练分开,从而各自可以使用不同的数据集进行训练 分割网络的输入尺寸更大,输出的mask质量更高更精细 根据最近一篇ICCV文章,增加分割网络的复杂度更有利于生成更高质量的新类别物体