首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏全栈程序员必看

    3DCNN论文阅读

    视频分类和动作识别 1.1《Learning Spatiotemporal Features with 3D Convolutional Networks》 2015年CVPR 这篇论文应该是3DCNN 我们的发现有三个方面:1)与2D ConvNet相比,3D ConvNet更适合时空特征学习;2)具有小的3×3×3卷积核的同质结构是3D ConvNet中性能最好的结构之一;3)我们学习的特征,即C3D 上图来源 C3D的网络结构: C3D的不足之处: 输入图像分辨率较低,该网络结构较浅,参数数量过多。 U-Net和3D U-Net如下图: 3. 为了解决这些问题,我们提出了一种集成了 3D 多头自注意力的 3D自注意力多尺度特征融合网络(3DSA-MFN)。

    1.7K20编辑于 2022-09-07
  • 来自专栏JNing的专栏

    论文阅读: YOLOv3

    Introduction 首先,我要贴出大神霸气侧漏的论文Introduction: ? 这可以解释为“艺高人狂妄”么? Innovation YOLOv3的作者自己也说了,本文没啥trick,就是纯粹博采众长,做做小实验,然后一不小心就搞出了YOLO第三代。。。 作者采用了更多的scale(3种scale),加深了DarkNet(直至53层),使得YOLOv3能够更好地抽取特征和保留小物体的位置信息。 ╮(╯_╰)╭ ---- [1] YOLOv3: An Incremental Improvement

    1.5K40发布于 2018-09-27
  • 来自专栏GiantPandaCV

    《DeepLab V3论文阅读

    论文地址 https://arxiv.org/abs/1706.05587 摘要 本文首先回顾了空洞卷积在语义分割中的应用,这是一种显式调整滤波器感受野和控制网络特征响应分辨率的有效工具。 还有一个重要的问题是,采用采样率非常大的3 * 3空洞卷积,由于图像边界效应,不能捕捉图像的大范围信息,也即是原文说的会退化成1 * 1卷积,所以论文在这里提出在ASPP模块中加入图像级特征。 不过,论文发现,随着sampling rate的增加,有效filter特征权重(即有效特征区域,而不是补零区域的权重)的数量会变小。 如下图所示,当采用具有不同atrous rates的3×3 filter应用到65×65 feature map时,在rate值接近于feature map 大小的极端情况,该3×3 filter不能捕获整个图像内容 最后,论文改进了ASPP, 即: (a) 当output_stride=16时,包括一个 1×1 convolution 和三个3×3 convolutions,其中3×3 convolutions的

    1.3K20发布于 2019-12-09
  • 来自专栏JNing的专栏

    论文阅读: 1802.Deeplabv3+

    创新点 在DeepLab v3上的基础上增加了一个Decoder。 Decoder将底层特征与高层特征进一步融合,提升分割边界准确度。 从某种意义上看,DeepLabv3+在DilatedFCN基础上引入了EcoderDecoder的思路。 把backbone从ResNet(DeepLabv3所采用)换成了改进的Xception。 Networks),增加了更多的层; 所有的最大池化层使用stride=2的depthwise separable convolutions替换,这样可以改成空洞卷积; 与MobileNet类似,在3x3 性能 DeepLabv3+在VOC2012测试集上的取得了很好的分割效果:

    44610编辑于 2021-12-06
  • 来自专栏JNing的专栏

    论文阅读: 1706.Deeplabv3

    论文中的级联模块指复制了四份block4,这四份分别使用不同rate的空洞卷积,最终block输出结果: 但这种结构效果并没有改进后的ASPP结构好: 架构设计 Encoder的主体是带有空洞卷积的 (这种架构在DeeplabV3+中被沿用)。 对于DeepLabv3,经过ASPP模块得到的特征图的output_stride为8或者16,其经过1x1的分类层后直接双线性插值到原始图片大小,这是一种非常暴力的decoder方法,特别是output_stride 然而这并不利于得到较精细的分割结果,故v3+模型中借鉴了EncoderDecoder结构,引入了新的Decoder模块。

    66420编辑于 2021-12-06
  • 来自专栏我还不懂对话

    论文阅读】- 怎么快速阅读ML论文

    机器学习的论文很多,怎么从Arxiv上泛滥的文章中选择论文阅读,那么我们就需要快速地了解论文内容概要,从而决定是否精读。 那么怎么快速阅读呢,作者提出只需要阅读过程中只需要回答出以下5个简单问题即可:1. 文章的模型(函数)的输入是什么? 例如,一些图像问题,输出是224x224x3的RGB图像;对于文本分类,一般输入是一个文本token序列。2. 文章的模型(函数)的输出是什么? 3. 损失函数是什么,它为什么可以带给模型监督信号?这个损失的目标有什么前提假设?ML模型是去拟合偏差和数据。 论文里面的说法是否可靠?个人理解,是说论文里面指标是否靠谱,方法是否实用等。凭我自己的经验,一般可以从以下几点来看:论文方法是否过于trick,是否非常复杂(奥卡姆剃刀原理)。

    73120编辑于 2022-10-08
  • 论文阅读助手:用腾讯云ADP打造基于意图识别的智能论文查询系统

    本文将深入解析一个基于腾讯云智能体开发平台(TencentCloudADP)构建的论文阅读助手智能体,该系统通过意图识别技术,能够智能理解用户查询需求,并提供三种核心功能:关键词搜索论文、获取论文摘要、 效果展示体验链接:https://adp.cloud.tencent.com/webim_exp/#/chat/sLwPrU整体架构这个论文阅读助手智能体具备以下核心能力:1.智能意图识别:a.自动识别用户查询意图 b.支持自然语言交互c.基于Youtu/youtu-mrc-pro大模型2.多维度论文查询:a.根据关键词搜索论文b.根据论文ID获取详细摘要c.搜索论文相关解读和宣传稿3.智能内容处理:a.自动翻译英文论文摘要 a.示例查询:“找找这一周的NLP相关论文”b.路由目标:参数提取1→论文搜索工具2.根据论文ID获取摘要a.示例查询:“我想看看第一篇论文的摘要”b.路由目标:参数提取11→摘要获取工具3.搜索论文相关解读 ,系统提供了完善的兜底处理:兜底回复节点●节点名称:回复3●回复内容:“抱歉我无法回答其他问题”●功能:为超出系统能力范围的查询提供礼貌的拒绝回复总结通过对实际工作流配置文件的深入分析,我们了解了这个论文阅读助手系统的真实技术架构

    13210编辑于 2026-02-25
  • 来自专栏Yunfeng's Simple Blog

    VitPose 论文阅读

    3. 继续阅读前的几个疑问 读完摘要和Introduction部分,我决定继续精读这篇论文,因此在进一步阅读前,为了提升对论文的理解程度,我想出了下面的问题,希望在读完剩余部分的时候,这些问题都能得到回答: backbone根据计算量大小,选用了Vit-B, ViT-L,ViT-H[3]以及ViTAE-G[4]。 Decoder结构,两个Deconv(+BN+ReLU) + 1个1x1 conv,每个deconv上采样2倍,最终输出feature map大小为输入的1/4倍 双线性差值上采样4倍,然后是ReLU+3x3conv 然后在3个数据集上分别训练1600个epoch,再在MS COCO 上fine tune 210个epoch。

    49520编辑于 2023-10-23
  • 来自专栏NLP算法工程师之路

    论文阅读-20190924

    论文1 《SANVis: Visual Analytics for Understanding Self-Attention Networks》 简介 这一篇文章是关于Self-Attention可视化的 论文2 《BERT Meets Chinese Word Segmentation》 简介 这篇论文介绍BERT用于中文分词任务的。 论文3 《Enriching BERT with Knowledge Graph Embeddings for Document Classification》 简介 这篇文章是一个比赛的方法,这个比赛是进行文档分类 论文4 《Subword ELMo》 简介 这篇文章主要使用Subword提升ELMo的性能,思路很简单。这里主要看一下网络结构。 ? 稍微扩充一下Highway Network,论文,公式如下,其中T=sigmoid(wx + b): ? 流程图 ? 对比ResNet ?

    1K20发布于 2019-12-18
  • 来自专栏JNing的专栏

    论文阅读: ResNet

    Introduction ResNet论文是里程碑级的basemodel,因此获得了 CVPR 2016 Best Paper,并统领江湖至今: ? 后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP值、比赛打榜的首选basemodel。

    1.3K30发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: ShuffleNet

    作者注意到,像Xception、ResNeXt这么好的网络结构,一旦被压缩为小网络,就会性能低下。这也导致了这类先进的网络结构无法被落地到移动设备上。

    58730发布于 2018-09-27
  • 来自专栏YZh学习记录

    CAM 论文阅读

    某一确切分类的CAM代表了CNN用于做分类时所看的区别性区域的位置(如图3)。生成CAM的过程如图2。 3 Weakly-supervised Object Localization 在这一部分,我们在ILSVRC2014数据集上评估了CAM的定位能力。 对VGGnet,我们溢出了conv5-3后的所有卷积层(pool5到prob),得到14x14的图分辨率。 对上述的每个网络,我们都添加一个3x3,步长为1,padding为1,1024个单元的卷积层,然后接一个GAP层和一个softmax层。 参考链接: 论文翻译参考: https://cloud.tencent.com/developer/article/1390900 https://zhuanlan.zhihu.com/p/27587399

    1.4K50发布于 2020-09-21
  • 来自专栏mathor

    WAVENET论文阅读

    这篇论文提出了WaveNet,一个生成原始音频波形的深度神经网络。 这篇论文要解决的问题是,同样的方法是否可以在宽带原始音频波形的生成中奏效,这些音频波形信号具有非常高的时间分辨率,至少每秒16000个样本(参照图1) 这篇论文介绍WaveNet,一个基于PixelCNN 图3描绘了扩大因子为1,2,4,8的扩大因果卷积。 ,x_{t-1},h)\tag{3} 基于其他的输入变量进行条件建模,我们可以引导WaveNet产生要求特征的音频。 在MOS测试中,听完每一个合成结果,评分者会对语音的自然度进行5分制打分(1:很差,2:差,3:一样,4:好,5:很好),详细情况请参考附录B ?

    1.4K30发布于 2020-08-10
  • 来自专栏JNing的专栏

    论文阅读: DenseNet

    将原本ResNet的 “串行式一对一的identity mapping” 变成了 “一对多的identity mapping”:

    69830发布于 2018-09-27
  • 来自专栏YZh学习记录

    squeezenet 论文阅读

    值得赞扬的是,每一篇论文都提供了一个案例,在这个案例中,提出的DSE方法产生了一个NN体系结构,与一个具有代表性的基础神经网络相比,它的精确度的确更高。 然而, 这些论文并没有试图提供关于神经网络设计空间形状的直觉。 这些选择背后的直觉可以在下面引用的论文中找到。 我们在图 3 (b) 中显示了这个实验的结果。请注意, 图 3 (a) 和图 3 (b) 中的13MB 模型是相同的体系结构: SR = 0.500 和 pct3x3=50pct3x3=50%。 7 论文阅读总结 关于神经网络的部分理解: CNN微结构 CNN宏观结构 关于模型压缩的方法: 这方面理论基础为无,后续加强。

    71310发布于 2020-09-08
  • 来自专栏Yunfeng's Simple Blog

    FastViT 论文阅读

    概述 论文地址:arxiv 代码地址:ml-fastvit FastViT 是苹果公司在 ICCV 2023上发表的网络结构设计的论文,在速度和精度上取得比较好的折衷,速度上既能和MobileOne这种轻量级网络匹敌 具体代码实现时,训练时采用了2个MobileOneBlock,分别表示mixer和normal,与原始输入x相加;推理的时候去掉残差相加,直接转换为一个MobileOne模块: 3. 在这篇论文中,为了提速,先是将普通的 KxK 的Conv修改为DepthWise KxK 的 Conv + 1x1 PointWise 的 Conv层,发现在提速后精度下降,例如论文中 Table 1 实验 对比实验在 ImageNet-1K 分类任务、COCO 物体检测,ADE20K 语义分割等标准任务上进行了对比 另外这篇论文还比较了FastVit在3D手重建这个下游任务上的效果,也是比MobRecon 另外 FastViT 的代码实现很简洁优雅,阅读起来很舒服,后面有空可以写一篇代码阅读的文章,欢迎感兴趣的小伙伴关注、点赞和评论区留言~

    45920编辑于 2023-10-23
  • 来自专栏JNing的专栏

    论文阅读: SSD

    论文中提到的“default box”,其实就是“anchor”: ? 具体地,SSD分别在 conv4_3、fc7、conv8_2、conv9_2、conv10_2、conv11_2 这六个逐级scale/2×2的feature map上,按照 K 依次等于 4、6、6、 后续的one-stage算法(YOLOv2、RetianNet、YOLOv3)均继承了此思想。 最近工作主要是看论文,发现要想把整条Detection的脉络捋清晰,建立自己的一套认知,还是很花功夫的。 ---- [1] SSD: Single Shot MultiBox Detector [2] 深度学习论文笔记:SSD [3] 检测任务专题1: SSD在训练什么 [4] SSD关键源码解析

    2K20发布于 2018-09-27
  • 来自专栏mathor

    VGG论文阅读

    论文下载 VGG 是 ImageNet 2014 年目标定位竞赛的第一名,图像分类竞赛的第二名 VGG论文图 ? 摘要中,作者研究了模型深度与精确度之间的关系。" 在引言中,作者提到了其他一些论文研究,有的人着眼于用尺寸更小的filter和第一层卷积的stride,还有的人在整个图像和多个尺度上对网络进行密集地训练和测试。 这篇论文主要是对模型的深度进行改进,固定其他的超参数,通过不断的增加层数,其中的技巧是因为作者所有的filter都使用的非常小的(3×3)的卷积滤波器 ? 本文的模型filter size是3×3,并且stride=1 ? 然后作者解释了,2个3×3的Conv(no padding) == 1个5×5的Conv;33×3的Conv(no padding) == 1个7×7的Conv。

    82810发布于 2019-12-30
  • 来自专栏JNing的专栏

    论文阅读: ResNeXt

    后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP、比赛打榜的首选basemodel。

    1.8K30发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: Xception

    Introduction GoogleNet论文中研究 group size 而搞出了Inceptionv1(即多group的CNN分支)。 channel数个Conv3×3则只需对单channel负责,这样就可以更专心地学到本channel的location信息: ? Result 经过实验,Xception在ImageNet上稍优于Inceptionv3: ? 参数数量和Inceptionv3基本一致,速度也差不多: ? 在ImageNet上的收敛情况也好于Inceptionv3: ? 如果先出来Xception,再出来Inceptionv3,且Inceptionv3的分类效果更好,那么又可以吹出一个貌似“有理有据”的故事。

    2K20发布于 2018-09-27
领券