搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏全栈程序员必看
3DCNN论文阅读
视频分类和动作识别 1.1《Learning Spatiotemporal Features with 3D Convolutional Networks》 2015年CVPR 这篇论文应该是3DCNN 我们的发现有三个方面：1)与2D ConvNet相比，3D ConvNet更适合时空特征学习；2)具有小的3×3×3卷积核的同质结构是3D ConvNet中性能最好的结构之一；3)我们学习的特征，即C3D 上图来源 C3D的网络结构： C3D的不足之处：输入图像分辨率较低，该网络结构较浅，参数数量过多。 U-Net和3D U-Net如下图： 3. 为了解决这些问题，我们提出了一种集成了 3D 多头自注意力的 3D自注意力多尺度特征融合网络（3DSA-MFN）。
1.8K20编辑于 2022-09-07
来自专栏JNing的专栏
论文阅读: YOLOv3
Introduction 首先，我要贴出大神霸气侧漏的论文Introduction： ? 这可以解释为“艺高人狂妄”么？ Innovation YOLOv3的作者自己也说了，本文没啥trick，就是纯粹博采众长，做做小实验，然后一不小心就搞出了YOLO第三代。。。作者采用了更多的scale（3种scale），加深了DarkNet（直至53层），使得YOLOv3能够更好地抽取特征和保留小物体的位置信息。 ╮(╯_╰)╭ ---- [1] YOLOv3: An Incremental Improvement
1.5K40发布于 2018-09-27
来自专栏时空探索之旅
论文拾遗 | 3月论文集锦
因此，决定开设此栏目，分享有一些有意思的论文（热度大），有部分论文可能后续出AI论文速读和论文精读。分享的论文将不拘泥于时空（spatial-temporal）和时序（time series）领域，期待与大家在学术的海洋中，一起探索，一起遨游！ 3. 3. LLM2LLM 3.
65710编辑于 2024-11-19
来自专栏JNing的专栏
论文阅读: 1706.Deeplabv3
论文中的级联模块指复制了四份block4，这四份分别使用不同rate的空洞卷积，最终block输出结果：但这种结构效果并没有改进后的ASPP结构好：架构设计 Encoder的主体是带有空洞卷积的（这种架构在DeeplabV3+中被沿用）。对于DeepLabv3，经过ASPP模块得到的特征图的output_stride为8或者16，其经过1x1的分类层后直接双线性插值到原始图片大小，这是一种非常暴力的decoder方法，特别是output_stride 然而这并不利于得到较精细的分割结果，故v3+模型中借鉴了EncoderDecoder结构，引入了新的Decoder模块。
71820编辑于 2021-12-06
来自专栏JNing的专栏
论文阅读: 1802.Deeplabv3+
创新点在DeepLab v3上的基础上增加了一个Decoder。 Decoder将底层特征与高层特征进一步融合，提升分割边界准确度。从某种意义上看，DeepLabv3+在DilatedFCN基础上引入了EcoderDecoder的思路。把backbone从ResNet（DeepLabv3所采用）换成了改进的Xception。 Networks），增加了更多的层；所有的最大池化层使用stride=2的depthwise separable convolutions替换，这样可以改成空洞卷积；与MobileNet类似，在3x3 性能 DeepLabv3+在VOC2012测试集上的取得了很好的分割效果：
50910编辑于 2021-12-06
来自专栏CV学习史
GoogLeNetv3 论文研读笔记
例如1x1卷积层后跟着3x3卷积层。使用2个3x3替换5x5后的Inception结构(figure 5) ? 研究者将这个收益归因于网络可以学习的增强的空间变化空间分解为不对称卷积上述结果表明，大于3×3的卷积滤波器可能不是通常有用的，因为它们总是可以简化为3×3卷积层序列。例如使用3×1卷积后接一个1×3卷积，相当于以与3×3卷积相同的感受野滑动两层网络 ? 把7x7卷积替换为3个3x3卷积。包含3个Inception部分。
75110发布于 2019-09-10
来自专栏GiantPandaCV
《DeepLab V3》论文阅读
论文地址 https://arxiv.org/abs/1706.05587 摘要本文首先回顾了空洞卷积在语义分割中的应用，这是一种显式调整滤波器感受野和控制网络特征响应分辨率的有效工具。还有一个重要的问题是，采用采样率非常大的3 * 3空洞卷积，由于图像边界效应，不能捕捉图像的大范围信息，也即是原文说的会退化成1 * 1卷积，所以论文在这里提出在ASPP模块中加入图像级特征。不过，论文发现，随着sampling rate的增加，有效filter特征权重（即有效特征区域，而不是补零区域的权重）的数量会变小。如下图所示，当采用具有不同atrous rates的3×3 filter应用到65×65 feature map时，在rate值接近于feature map 大小的极端情况，该3×3 filter不能捕获整个图像内容最后，论文改进了ASPP，即: (a) 当output_stride=16时，包括一个 1×1 convolution 和三个3×3 convolutions，其中3×3 convolutions的
1.4K20发布于 2019-12-09
来自专栏CVer
3篇论文被ICML 2026录用
来源：ARClab 近日，浙江大学计算机系统结构实验室（ZJU ARClab）三篇论文同时被第43届国际机器学习大会（International Conference on Machine Learning 论文一“Watermaking LLM Agent Trajectories”针对大语言模型（LLM）智能体训练数据被未授权使用却难以追溯的问题，提出了首个面向智能体轨迹数据集的水印技术ACTHOOK，其论文录用代表了国际同行对相关研究创新性、技术深度和学术价值的高度认可。论文一：Watermaking LLM Agent Trajectories 第一作者：孟文龙浙江大学计算机系统结构实验室在读博士生，主要研究方向为大语言模型安全、数据版权保护及AI隐私计算。基于行为级钩子动作的轨迹数据集水印技术ACTHOOK 针对上述挑战，论文提出了水印框架ACTHOOK。
24910编辑于 2026-05-26
来自专栏登神长阶
【论文复现】DETR3D：3D目标检测
概述 DETR3D介绍了一种多摄像头的三维目标检测的框架。与现有的直接从单目图像中估计3D边界框或者使用深度预测网络从2D信息中生成3D目标检测的输入相比，DETR3D直接在3D空间中进行预测。 DETR3D从多个相机图像中提取2D特征，使用3D对象查询的稀疏集来索引这些2D特征。使用相机变换矩阵将3D位置链接到多视图图像。 DETR3D将3D信息合并到中间计算中，而不是在图像平面上执行纯粹的2D计算 DETR3D不估计密集的三维场景几何，避免相关的重建误差 DETR3D避免了NMS等后处理步骤如上图所示，DETR3D 使用一个新的集合预测模块来解决这些问题，该模块通过在2D和3D计算之间交替来连接2D特征提取和3D边界框预测。参考文献 github地址论文地址
1.5K10编辑于 2024-12-18
来自专栏决策智能与机器学习
论文精读|3rd|ICLR 2018最佳论文|全文下载|meta-learning in nonstationary
论文PDF全文下载，公众号回复：20180425 作者简介 ? “无冕之王”之称的ICLR 2018三篇最佳论文之一。本论文重点关注于元学习方向，提出了一种基于梯度的简单元学习算法，适用于动态变化和对抗性的场景，并获得显著高效的适应性智能体。在本论文中，我们将持续适应问题交给了“learning-to-learn”的框架。我们开发了一种简单的基于梯度学习的元学习算法，适用于动态变化和对抗场景下的适应。（b）非平稳运动环境，红色腿的力矩通过动态变化因素调节（c）RoboSumo环境（四）试验结果简要说明对比方法，三种基准方法： 1）朴素方法（或没有适应能力的方法） 2）通过RL方法隐性适应 3）
59830发布于 2020-08-04
来自专栏AI算法与图像处理
CVPR2022论文速递（2022.5.18）！共3篇！
整理：AI算法与图像处理 CVPR2022论文和代码整理：https://github.com/DWCTOD/CVPR2022-Papers-with-Code-Demo Updated on : 18 May 2022 total number : 3 Transformers - - 1 篇 MulT: An End-to-End Multitask Learning Transformer 标题：MulT：端到端多任务学习Transformer 论文/Paper: http://arxiv.org/pdf/2205.08303 代码/Code: None 其他/Other - 2 篇 Disentangling Visual Embeddings for Attributes and Objects 标题：解耦属性和对象的视觉嵌入论文/Paper: http://arxiv.org/pdf/2205.08536 Self-supervised Neural Articulated Shape and Appearance Models 标题：自监督的神经表达形状和外观模型论文/Paper: http://arxiv.org
38310编辑于 2022-05-19
来自专栏机器学习AI算法工程
投了3遍都被毙的论文，终于中了
如果导师放养，怎么解决论文问题？我相信关注我的粉丝中，被这问题困扰的，不止一个。图神经网络）成为最大趋势，ICLR 2020 提交论文的绝对高频词中它排名第7位，相比于ICLR 2019提升了13位。从数据来看，这是一个热门且相对好发论文的选题。 anyway，这些说起来可以说3天3夜了，我花了十几个小时，给大家准备了一套免费资料，全部看完，写篇优秀论文不在话下。资料的设计者是全球top30高校教授，博士生导师，海外知名高校博士。扫码添加客服即可领取↓ 免费资料：《好论文该怎么写》（限99份，手慢无） ----
85210编辑于 2022-03-17
来自专栏Python编程爱好者
女生回应导师修改 3 万字论文。。。
今天和大家分享的 3 篇深度学习方面的论文。分别是： AlexNet AmoebaNet CapsNet AlexNet AlexNet是深度学习领域的一个重要里程碑，其论文全名为"ImageNet Classification with Deep 该论文最初在2012年提交至NIPS（现更名为NeurIPS，即神经信息处理系统会议）并获得了大量关注。 AmoebaNet AmoebaNet是在一系列关于神经架构搜索的论文中被详细介绍的。最后整理了300篇深度学习方面的论文分享给大家，方便大家学习，文末获取~
27810编辑于 2024-04-26
来自专栏SnailTyan
Inception-V3论文翻译——中文版
由于我们正在构建视觉网络，所以通过两层的卷积结构再次利用平移不变性来代替全连接的组件似乎是很自然的：第一层是3×3卷积，第二层是在第一层的3×3输出网格之上的一个全连接层（见图1）。空间分解为不对称卷积上述结果表明，大于3×3的卷积滤波器可能不是通常有用的，因为它们总是可以简化为3×3卷积层序列。我们仍然可以问这个问题，是否应该把它们分解成更小的，例如2×2的卷积。例如使用3×1卷积后接一个1×3卷积，相当于以与3×3卷积相同的感受野滑动两层网络（参见图3）。如果输入和输出滤波器的数量相等，那么对于相同数量的输出滤波器，两层解决方案便宜33％。相比之下，将3×3卷积分解为两个2×2卷积表示仅节省了11％的计算量。 ? 图3。替换3×3卷积的Mini网络。网络的更低层由带有3个输出单元的3×1构成。注意，基于与3.1节中描述的同样想法，我们将传统的7×77 \times 7卷积分解为3个3×33\times 3卷积。
1.7K10发布于 2017-12-28
来自专栏计算机视觉论文阅读
CVPR2020——D3VO论文阅读
文章标题：D3VO: Deep Depth, Deep Pose and Deep Uncertainty for Monocular Visual Odometry 摘要：我们提出的D3VO单目视觉里程计框架从三个层面上利用了深度学习网络 D3VO将预测深度，位姿以及不确定度紧密结合到一个直接视觉里程计方法中，来同时提升前端追踪以及后端非线性优化性能。我们在KITTI以及EuRoC MAV数据集上评估了D3VO单目视觉里程计的性能。结果显示，D3VO大大超越了传统的sota视觉里程计方法。下一节，我们将展示学习得到的对于D3VO中加权光度残差有重要作用。我们系统地评估了两个数据集上D3VO的VO性能。
2.3K81发布于 2020-05-19
来自专栏全栈程序员必看
目标检测算法YOLO3论文解读
论文题目：YOLOv3: An Incremental Improvement 论文地址：https://arxiv.org/abs/1804.02767 代码地址：https://github.com /aloyschen/tensorflow-yolo3 一、论文解读 1、bounding box prediction（边界框预测） YOLO2预测bounding boxes是使用anchor boxes 3、结合不同卷积层的特征，提取更细粒度的信息，做多尺度预测 YOLO3用3个不同的尺度预测boxes，网络采用类似特征金字塔的概念，从不同的尺度提取特征。 YOLO v2损失函数的后三项是平方误差，而YOLO v3则更改为交叉熵误差项，也就是说YOLO v3的物品置信度和分离预测使用的是逻辑回归算法。二、代码理解 1、构造残差块 2、darknet53网络结构，用于提取特征（使用了残差块） 3、yolo块（图中Convs） yolo3在Darknet53提取的特征层基础上，又加了针对3种不同比例的
85420编辑于 2022-09-08
来自专栏一点人工一点智能
免费领取 | 11篇 3DV2022论文
: Holistic 3D Wireframe Perception from a Single Image Authors: Wenchao Ma, Bin Tan, Nan Xue, Tianfu studies the problem of holistic 3D wireframe perception (HoW-3D), a new task of perceiving both the visible 3D wireframes and the invisible ones from single-view 2D images. SC6D requires neither the 3D CAD model of the object nor any prior knowledge of the symmetries. This enables our approach to manipulate 3D shapes in an efficient and precise manner.
1.4K50编辑于 2022-12-27
来自专栏AiCharm
ACL 2023奖项公布：3篇最佳论文、39篇杰出论文，多家国内机构上榜
今年共评选出 3 篇最佳论文，4 个特别奖项论文：资源奖（Resource Award）、社会影响奖（Social Impact Award）、复现奖（Reproduction Award）、主题论文奖以及即使提供真实的视觉场景描述，在超过 2/3 的情况下，人类编写的解释也比模型编写的最佳解释（fewshot GPT-4 ）更受欢迎。论文 3：From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Liang 论文地址：https://arxiv.org/pdf/2305.16765.pdf 论文 3：Causes and Cures for Interference in Multilingual 2023.aclweb.org/ https://2023.aclweb.org/program/ 读心术再现，DreamDiffusion"高清还原"大脑中的画面 2023-07-11 OVO: 无需3D
1.2K10编辑于 2023-07-26
来自专栏机器之心
ACL 2023奖项公布：3篇最佳论文、39篇杰出论文，多家国内机构上榜
今年共评选出 3 篇最佳论文，4 个特别奖项论文：资源奖（Resource Award）、社会影响奖（Social Impact Award）、复现奖（Reproduction Award）、主题论文奖以及最佳论文论文 1：Do Androids Laugh at Electric Sheep? 即使提供真实的视觉场景描述，在超过 2/3 的情况下，人类编写的解释也比模型编写的最佳解释（fewshot GPT-4 ）更受欢迎。论文 3：From Pretraining Data to Language Models to Downstream Tasks: Tracking the Trails of Political Biases Liang 论文地址：https://arxiv.org/pdf/2305.16765.pdf 论文 3：Causes and Cures for Interference in Multilingual
90820编辑于 2023-08-07
来自专栏CVer
实验室3篇论文被CVPR 2026录用
近日CVPR 2026公布的论文录取结果，在16092份的有效投稿中，只有4090篇被录用，录取率为25.42%。本课题组共有3篇论文被CVPR 2026录用，以下为录取论文的简要介绍。 01 论文题目：Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning 论文作者：陈楚彬，胡素婕，黄妮莎，方承煜，李秀作者单位：清华大学，阿里巴巴近年来，通过强化学习（RLHF）使文本到图像（T2I）模型对齐人类偏好取得了重大进展。 02 论文题目：DiverseGRPO: Mitigating Mode Collapse in Image Generation via Diversity-Aware GRPO 论文作者：刘恒霖，黄慧娟 03 论文题目：MVInverse: Feed-forward Multi-view Inverse Rendering in Seconds 论文作者：吴相佐，任程威，周俊，李秀，刘缘作者单位：清华大学
39910编辑于 2026-04-22

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

3DCNN论文阅读

论文阅读: YOLOv3

论文拾遗 | 3月论文集锦

论文阅读: 1706.Deeplabv3

论文阅读: 1802.Deeplabv3+

GoogLeNetv3 论文研读笔记

《DeepLab V3》论文阅读

3篇论文被ICML 2026录用

【论文复现】DETR3D：3D目标检测

论文精读|3rd|ICLR 2018最佳论文|全文下载|meta-learning in nonstationary

CVPR2022论文速递（2022.5.18）！共3篇！

投了3遍都被毙的论文，终于中了

女生回应导师修改 3 万字论文。。。

Inception-V3论文翻译——中文版

CVPR2020——D3VO论文阅读

目标检测算法YOLO3论文解读

免费领取 | 11篇 3DV2022论文

ACL 2023奖项公布：3篇最佳论文、39篇杰出论文，多家国内机构上榜

ACL 2023奖项公布：3篇最佳论文、39篇杰出论文，多家国内机构上榜

实验室3篇论文被CVPR 2026录用

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐