视频分类和动作识别 1.1《Learning Spatiotemporal Features with 3D Convolutional Networks》 2015年CVPR 这篇论文应该是3DCNN 我们的发现有三个方面:1)与2D ConvNet相比,3D ConvNet更适合时空特征学习;2)具有小的3×3×3卷积核的同质结构是3D ConvNet中性能最好的结构之一;3)我们学习的特征,即C3D 上图来源 C3D的网络结构: C3D的不足之处: 输入图像分辨率较低,该网络结构较浅,参数数量过多。 U-Net和3D U-Net如下图: 3. 为了解决这些问题,我们提出了一种集成了 3D 多头自注意力的 3D自注意力多尺度特征融合网络(3DSA-MFN)。
Introduction 首先,我要贴出大神霸气侧漏的论文Introduction: ? 这可以解释为“艺高人狂妄”么? Innovation YOLOv3的作者自己也说了,本文没啥trick,就是纯粹博采众长,做做小实验,然后一不小心就搞出了YOLO第三代。。。 作者采用了更多的scale(3种scale),加深了DarkNet(直至53层),使得YOLOv3能够更好地抽取特征和保留小物体的位置信息。 ╮(╯_╰)╭ ---- [1] YOLOv3: An Incremental Improvement
因此,决定开设此栏目,分享有一些有意思的论文(热度大),有部分论文可能后续出AI论文速读和论文精读。 分享的论文将不拘泥于时空(spatial-temporal)和时序(time series)领域,期待与大家在学术的海洋中,一起探索,一起遨游! 3. 3. LLM2LLM 3.
例如1x1卷积层后跟着3x3卷积层。 使用2个3x3替换5x5后的Inception结构(figure 5) ? 研究者将这个收益归因于网络可以学习的增强的空间变化 空间分解为不对称卷积 上述结果表明,大于3×3的卷积滤波器可能不是通常有用的,因为它们总是可以简化为3×3卷积层序列。 例如使用3×1卷积后接一个1×3卷积,相当于以与3×3卷积相同的感受野滑动两层网络 ? 把7x7卷积替换为3个3x3卷积。包含3个Inception部分。
创新点 在DeepLab v3上的基础上增加了一个Decoder。 Decoder将底层特征与高层特征进一步融合,提升分割边界准确度。 从某种意义上看,DeepLabv3+在DilatedFCN基础上引入了EcoderDecoder的思路。 把backbone从ResNet(DeepLabv3所采用)换成了改进的Xception。 Networks),增加了更多的层; 所有的最大池化层使用stride=2的depthwise separable convolutions替换,这样可以改成空洞卷积; 与MobileNet类似,在3x3 性能 DeepLabv3+在VOC2012测试集上的取得了很好的分割效果:
论文中的级联模块指复制了四份block4,这四份分别使用不同rate的空洞卷积,最终block输出结果: 但这种结构效果并没有改进后的ASPP结构好: 架构设计 Encoder的主体是带有空洞卷积的 (这种架构在DeeplabV3+中被沿用)。 对于DeepLabv3,经过ASPP模块得到的特征图的output_stride为8或者16,其经过1x1的分类层后直接双线性插值到原始图片大小,这是一种非常暴力的decoder方法,特别是output_stride 然而这并不利于得到较精细的分割结果,故v3+模型中借鉴了EncoderDecoder结构,引入了新的Decoder模块。
论文地址 https://arxiv.org/abs/1706.05587 摘要 本文首先回顾了空洞卷积在语义分割中的应用,这是一种显式调整滤波器感受野和控制网络特征响应分辨率的有效工具。 还有一个重要的问题是,采用采样率非常大的3 * 3空洞卷积,由于图像边界效应,不能捕捉图像的大范围信息,也即是原文说的会退化成1 * 1卷积,所以论文在这里提出在ASPP模块中加入图像级特征。 不过,论文发现,随着sampling rate的增加,有效filter特征权重(即有效特征区域,而不是补零区域的权重)的数量会变小。 如下图所示,当采用具有不同atrous rates的3×3 filter应用到65×65 feature map时,在rate值接近于feature map 大小的极端情况,该3×3 filter不能捕获整个图像内容 最后,论文改进了ASPP, 即: (a) 当output_stride=16时,包括一个 1×1 convolution 和三个3×3 convolutions,其中3×3 convolutions的
概述 DETR3D介绍了一种多摄像头的三维目标检测的框架。与现有的直接从单目图像中估计3D边界框或者使用深度预测网络从2D信息中生成3D目标检测的输入相比,DETR3D直接在3D空间中进行预测。 DETR3D从多个相机图像中提取2D特征,使用3D对象查询的稀疏集来索引这些2D特征。使用相机变换矩阵将3D位置链接到多视图图像。 DETR3D将3D信息合并到中间计算中,而不是在图像平面上执行纯粹的2D计算 DETR3D不估计密集的三维场景几何,避免相关的重建误差 DETR3D避免了NMS等后处理步骤 如上图所示,DETR3D 使用一个新的集合预测模块来解决这些问题,该模块通过在2D和3D计算之间交替来连接2D特征提取和3D边界框预测。 参考文献 github地址 论文地址
论文PDF全文下载,公众号回复:20180425 作者简介 ? “无冕之王”之称的ICLR 2018三篇最佳论文之一。 本论文重点关注于元学习方向,提出了一种基于梯度的简单元学习算法,适用于动态变化和对抗性的场景,并获得显著高效的适应性智能体。 在本论文中,我们将持续适应问题交给了“learning-to-learn”的框架。我们开发了一种简单的基于梯度学习的元学习算法,适用于动态变化和对抗场景下的适应。 (b)非平稳运动环境,红色腿的力矩通过动态变化因素调节 (c)RoboSumo环境 (四)试验结果简要说明 对比方法,三种基准方法: 1)朴素方法(或没有适应能力的方法) 2)通过RL方法隐性适应 3)
整理:AI算法与图像处理 CVPR2022论文和代码整理:https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo Updated on : 18 May 2022 total number : 3 Transformers - - 1 篇 MulT: An End-to-End Multitask Learning Transformer 标题 :MulT:端到端多任务学习Transformer 论文/Paper: http://arxiv.org/pdf/2205.08303 代码/Code: None 其他/Other - 2 篇 Disentangling Visual Embeddings for Attributes and Objects 标题:解耦属性和对象的视觉嵌入 论文/Paper: http://arxiv.org/pdf/2205.08536 Self-supervised Neural Articulated Shape and Appearance Models 标题:自监督的神经表达形状和外观模型 论文/Paper: http://arxiv.org
今天和大家分享的 3 篇深度学习方面的论文。 分别是: AlexNet AmoebaNet CapsNet AlexNet AlexNet是深度学习领域的一个重要里程碑,其论文全名为"ImageNet Classification with Deep 该论文最初在2012年提交至NIPS(现更名为NeurIPS,即神经信息处理系统会议)并获得了大量关注。 AmoebaNet AmoebaNet是在一系列关于神经架构搜索的论文中被详细介绍的。 最后 整理了300篇深度学习方面的论文分享给大家,方便大家学习,文末获取~
如果导师放养,怎么解决论文问题? 我相信关注我的粉丝中,被这问题困扰的,不止一个。 图神经网络)成为最大趋势,ICLR 2020 提交论文的绝对高频词中它排名第7位,相比于ICLR 2019提升了13位。 从数据来看,这是一个热门且相对好发论文的选题。 anyway,这些说起来可以说3天3夜了,我花了十几个小时,给大家准备了一套免费资料,全部看完,写篇优秀论文不在话下。 资料的设计者是全球top30高校教授,博士生导师,海外知名高校博士。 扫码添加客服 即可领取↓ 免费资料:《好论文该怎么写》 (限99份,手慢无) ----
由于我们正在构建视觉网络,所以通过两层的卷积结构再次利用平移不变性来代替全连接的组件似乎是很自然的:第一层是3×3卷积,第二层是在第一层的3×3输出网格之上的一个全连接层(见图1)。 空间分解为不对称卷积 上述结果表明,大于3×3的卷积滤波器可能不是通常有用的,因为它们总是可以简化为3×3卷积层序列。我们仍然可以问这个问题,是否应该把它们分解成更小的,例如2×2的卷积。 例如使用3×1卷积后接一个1×3卷积,相当于以与3×3卷积相同的感受野滑动两层网络(参见图3)。如果输入和输出滤波器的数量相等,那么对于相同数量的输出滤波器,两层解决方案便宜33%。 相比之下,将3×3卷积分解为两个2×2卷积表示仅节省了11%的计算量。 ? 图3。替换3×3卷积的Mini网络。网络的更低层由带有3个输出单元的3×1构成。 注意,基于与3.1节中描述的同样想法,我们将传统的7×77 \times 7卷积分解为3个3×33\times 3卷积。
: Holistic 3D Wireframe Perception from a Single Image Authors: Wenchao Ma, Bin Tan, Nan Xue, Tianfu studies the problem of holistic 3D wireframe perception (HoW-3D), a new task of perceiving both the visible 3D wireframes and the invisible ones from single-view 2D images. SC6D requires neither the 3D CAD model of the object nor any prior knowledge of the symmetries. This enables our approach to manipulate 3D shapes in an efficient and precise manner.
文章标题:D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry 摘要: 我们提出的D3VO单目视觉里程计框架从三个层面上利用了深度学习网络 D3VO将预测深度,位姿以及不确定度紧密结合到一个直接视觉里程计方法中,来同时提升前端追踪以及后端非线性优化性能。我们在KITTI以及EuRoC MAV数据集上评估了D3VO单目视觉里程计的性能。 结果显示,D3VO大大超越了传统的sota视觉里程计方法。 下一节,我们将展示学习得到的 对于D3VO中加权光度残差有重要作用。 我们系统地评估了两个数据集上D3VO的VO性能。
论文题目:YOLOv3: An Incremental Improvement 论文地址:https://arxiv.org/abs/1804.02767 代码地址:https://github.com /aloyschen/tensorflow-yolo3 一、论文解读 1、bounding box prediction(边界框预测) YOLO2预测bounding boxes是使用anchor boxes 3、结合不同卷积层的特征,提取更细粒度的信息,做多尺度预测 YOLO3用3个不同的尺度预测boxes,网络采用类似特征金字塔的概念,从不同的尺度提取特征。 YOLO v2损失函数的后三项是平方误差,而YOLO v3则更改为交叉熵误差项,也就是说YOLO v3的物品置信度和分离预测使用的是逻辑回归算法。 二、代码理解 1、构造残差块 2、darknet53网络结构,用于提取特征(使用了残差块) 3、yolo块(图中Convs) yolo3在Darknet53提取的特征层基础上,又加了针对3种不同比例的
今年共评选出 3 篇最佳论文,4 个特别奖项论文:资源奖(Resource Award)、社会影响奖(Social Impact Award)、复现奖(Reproduction Award)、主题论文奖以及 即使提供真实的视觉场景描述,在超过 2/3 的情况下,人类编写的解释也比模型编写的最佳解释(fewshot GPT-4 )更受欢迎。 论文 3:From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Liang 论文地址:https://arxiv.org/pdf/2305.16765.pdf 论文 3:Causes and Cures for Interference in Multilingual 2023.aclweb.org/ https://2023.aclweb.org/program/ 读心术再现,DreamDiffusion"高清还原"大脑中的画面 2023-07-11 OVO: 无需3D
今年共评选出 3 篇最佳论文,4 个特别奖项论文:资源奖(Resource Award)、社会影响奖(Social Impact Award)、复现奖(Reproduction Award)、主题论文奖以及 最佳论文 论文 1:Do Androids Laugh at Electric Sheep? 即使提供真实的视觉场景描述,在超过 2/3 的情况下,人类编写的解释也比模型编写的最佳解释(fewshot GPT-4 )更受欢迎。 论文 3:From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Liang 论文地址:https://arxiv.org/pdf/2305.16765.pdf 论文 3:Causes and Cures for Interference in Multilingual
Inception模块中每个5×5卷积由两个3×3卷积替换,正如第2小节中原则3建议的那样。 Figure 3. Mini-network replacing the 3 × 3 convolutions. 例如使用3×1卷积后接一个1×3卷积,相当于以与3×3卷积相同的感受野滑动两层网络(参见图3)。如果输入和输出滤波器的数量相等,那么对于相同数量的输出滤波器,两层解决方案便宜33%。 相比之下,将3×3卷积分解为两个2×2卷积表示仅节省了11%的计算量。 ? 图3。替换3×3卷积的Mini网络。网络的更低层由带有3个输出单元的3×1构成。 Table 3). ? Table 3.
这是Machine-Learning-Collage系列,每隔一周作者都会编写一个本周论文的幻灯片摘要。每月底所有的幻灯片画都会被集中到一个总结文章中。作者希望给读者一个直观和直观的一些最酷的趋势。 以下是作者在2021年3月读到的四篇最喜欢的论文,以及为什么我相信它们对深度学习的未来很重要。 论文中使用经过优化的超参数训练神经网络。并提出的称为MODAC的元梯度方法能够发现有用的策略选项。元梯度方法可以从任务分布中提取有意义的规律性。 论文中的消融研究旨在提取存储在不同级别的内容信息。通过切断流入顶层的输入信号,作者能够证明顶层为低层提供全局的非特定信息。