首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏YZh学习记录

    MobileNetV2 论文阅读

    MobileNetV2:Inverted Residuals and Linear BottleNecks 1 引言 MobileNetv2架构是基于倒置残差结构(inverted residual structure 论文的主要贡献在于提出一种新型层结构: 具有线性瓶颈的倒残差结构(the inverted residual with linear bottleneck)。 论文针对这个问题使用linear bottleneck(即不使用ReLU激活,做了线性变换)的来代替原本的非线性激活变换。 2.2 Inverted residuals MobileNetV2的网络模块样子是这样的: image.png 网络设计思路: 在V2的网络设计中,我们除了继续使用深度可分离(中间那个)结构之外,还使用了 bottleneck residual block(ResNet论文中的)是中间窄两头胖 在MobileNetV2中正好反了过来,所以,在MobileNetV2论文中我们称这样的网络结构为Inverted

    1.8K31发布于 2020-10-26
  • 来自专栏mathor

    Tacotron2论文阅读

    论文下载 ABSTRACT ? 这篇论文描述了Tacotron 2, 一个直接从文本合成语音的神经网络架构。 系统由两部分构成,一个循环seq2seq结构的特征预测网络,把字符向量映射为梅尔声谱图,后面再接一个WaveNet模型的修订版,把梅尔声谱图合成为时域波形。 作者们指出,相比WaveNet中使用的方法,Griffin-Lim算法会产生特有的人工痕迹并且合成的语音保真度较低,所以这只是一个临时方法,将来要替换成神经声码器 在这篇论文中,我们描绘一个统一的完整的神经网络语音合成方法 ,它集上述两种方法之长:一个seq2seq的Tacotron风格的模型用来生成梅尔声谱图,后接一个WaveNet声码器的修订版。 Char2Wav也提出了另外一个类似的方法,也使用神经声码器进行端到端的TTS学习,但它使用与我们不同的中间特征表达(传统的声码器特征),并且他们的模型架构与我们迥然不同 2 MODEL ARCHITECTURE

    1.8K20发布于 2020-08-13
  • 来自专栏JNing的专栏

    论文阅读: YOLOv2

    引入Batch Normalization,涨点2。 YOLOv2坐不住了,想要改basemodel。 Thinking YOLOv2中提出了很多trick,贡献很饱满; YOLOv2的加强版——YOLO-9000应该是最早开始对 large-scale detection 领域进行拓荒的了。 ---- [1] YOLO9000: Better, Faster, Stronger [2] 详解YOLO 2与YOLO 9000目标检测系统 | 分享总结 [3] YOLO升级版:YOLOv2 和YOLO9000解析 [4] 解读Yolo2和Yolo9000目标检测系统 [5] Object Detection – 论文YOLO2(YOLO9000:Better, Faster, Stronger

    1.2K40发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: 1606.Deeplabv2

    类似于SPPNet的空间金字塔结构),并行的采用多个采样率的空洞卷积提取特征,再将特征融合: 能够用多尺度获得更好的分割效果: 更多的ASPP变种: 更优的backbone: DeepLabv2使用

    40420编辑于 2021-12-06
  • 来自专栏GiantPandaCV

    《DeepLab V2论文阅读

    前言 昨天的推文《DeepLab V2》组织方式很不清晰,没有将关键结论以及空洞卷积这种方法的优点讲出来,所以重新组织了一下这篇论文的解读,希望可以带来不一样的体验。 而Fig.2(b)在高分辨率输入5维图片上,zeropadding=2,膨胀速率2的膨胀卷积来采集密集特征的示意图,使用空洞卷积能提取到更多的密集特征,计算量较常规卷积基本保持不变。 在二维图像上的空洞卷积,论文给了另外一张图Fig3: ? Fig.3中上分支是将输入图片下采样1/2后使用卷积核大小为7的标注卷积得到feature map后再上采样2倍得到结果。 训练细节 论文在ImageNet预训练的VGG-16和ResNet-101网络上进行finetune,将输出的1000类改成语义分割数据集的分类数,COCO和VOC都是21类,损失函数是CNN的输出( 除了这些工作,论文还尝试了在COCO数据集上进行了测试,mIOU可以达到77.69%,具体可以参考原文,这个算法也是达到了当时的SOAT。

    1K20发布于 2019-12-09
  • 来自专栏JNing的专栏

    论文阅读: 2005.U2Net

    2005.09007:U2-Net: Going Deeper with Nested U-Structure for Salient Object Detection 该网络用于轻量级的 SOD(显著目标检测

    46120编辑于 2021-12-06
  • 来自专栏我还不懂对话

    论文阅读】- 怎么快速阅读ML论文

    机器学习的论文很多,怎么从Arxiv上泛滥的文章中选择论文阅读,那么我们就需要快速地了解论文内容概要,从而决定是否精读。 那么怎么快速阅读呢,作者提出只需要阅读过程中只需要回答出以下5个简单问题即可:1. 文章的模型(函数)的输入是什么? 2. 文章的模型(函数)的输出是什么?例如,1000个向量(1000分类问题)了解了模型的输入输出之后,你大致就能脱离模型,想到其他类似的方法来对比,或者考虑其他领域是否有一些算法也可以应用于此处。 论文里面的说法是否可靠?个人理解,是说论文里面指标是否靠谱,方法是否实用等。凭我自己的经验,一般可以从以下几点来看:论文方法是否过于trick,是否非常复杂(奥卡姆剃刀原理)。 一般很好的论文思想都很简单,反而是一些水文花里胡哨,指标提升像极了随机波动。是否开源代码。这个很重要,开源也分很多级别:第一档:被开源框架集成,那么这种算法基本没啥问题,方法也是被业界其他人认可。

    73120编辑于 2022-10-08
  • 论文阅读助手:用腾讯云ADP打造基于意图识别的智能论文查询系统

    本文将深入解析一个基于腾讯云智能体开发平台(TencentCloudADP)构建的论文阅读助手智能体,该系统通过意图识别技术,能够智能理解用户查询需求,并提供三种核心功能:关键词搜索论文、获取论文摘要、 效果展示体验链接:https://adp.cloud.tencent.com/webim_exp/#/chat/sLwPrU整体架构这个论文阅读助手智能体具备以下核心能力:1.智能意图识别:a.自动识别用户查询意图 b.支持自然语言交互c.基于Youtu/youtu-mrc-pro大模型2.多维度论文查询:a.根据关键词搜索论文b.根据论文ID获取详细摘要c.搜索论文相关解读和宣传稿3.智能内容处理:a.自动翻译英文论文摘要 4.结果回复●回复内容:格式化后的论文列表信息第三步:论文摘要获取流程当用户需要获取特定论文的摘要时,系统执行以下流程:1.参数提取●节点名称:提取论文ID●功能:从用户输入中提取论文标识符2.摘要获取 ,系统提供了完善的兜底处理:兜底回复节点●节点名称:回复3●回复内容:“抱歉我无法回答其他问题”●功能:为超出系统能力范围的查询提供礼貌的拒绝回复总结通过对实际工作流配置文件的深入分析,我们了解了这个论文阅读助手系统的真实技术架构

    13210编辑于 2026-02-25
  • 来自专栏计算机视觉论文阅读

    CVPR2019——MonoDepth2论文阅读

    这个问题表现在,在测试时的预测深度图中产生无限深度的“孔”,对于在训练[38]期间通常观察到正在移动的对象(如图2)。 我们做水平翻转以及如下的训练数据扩充策略,以50%的几率:随机亮度、对比度、饱和度和色调抖动,其范围分别为±0:2、±0:2、±0:2和±0:1。 我们在表2(c)中报告了经过训练的单目结果,即不移除帧。在KITTI上训练的基准模型比我们的完整模型表现更差。 此外,在表2(a)中,我们用来自[76]的预测性mask的重新实现替换了我们的auto-masking。 表2显示了我们的贡献给预先培训的网络和那些从零开始培训的网络带来的好处;更多烧蚀见补充材料C部分。

    5.1K32发布于 2020-05-22
  • 来自专栏Yunfeng's Simple Blog

    VitPose 论文阅读

    概述 VitPose是最近出来的一篇用Transformer结构做人体2D关键点估计的论文,采用比较简单的Transformer结构就能在MS COCO 测试集上取得比较好的结果,挺吸引人的。 论文不长,这周末读了一遍,感觉值得借鉴的地方挺多,这里我用自己的语言描述论文的细节,同时把自己的一些疑惑和思考写下来,欢迎讨论交流。 2. 摘要和引入 Vison Transformer 在视觉识别任务中效果优秀,在识别但还没有人在姿态估计任务上验证这种结构的有效性。 继续阅读前的几个疑问 读完摘要和Introduction部分,我决定继续精读这篇论文,因此在进一步阅读前,为了提升对论文的理解程度,我想出了下面的问题,希望在读完剩余部分的时候,这些问题都能得到回答: 而这篇论文也验证了由于Transformer强大的学习能力,即使像方案2这样的的简单decoder,也能达到很高的精度: 可以看到,ResNet系列在方案1上的结果远高于方案2,说明CNN结构的学习能力需要强有力的

    49520编辑于 2023-10-23
  • 来自专栏NLP算法工程师之路

    论文阅读-20190924

    论文1 《SANVis: Visual Analytics for Understanding Self-Attention Networks》 简介 这一篇文章是关于Self-Attention可视化的 论文2 《BERT Meets Chinese Word Segmentation》 简介 这篇论文介绍BERT用于中文分词任务的。 论文结果 BERT可以稍微提高CWS任务的性能。就Softmax分类器来说,MSR数据集和PKU数据集F1分数分别有+0.3和+0.4提高。 充分训练的时候,CRF和Softmax达到相同的性能。 论文4 《Subword ELMo》 简介 这篇文章主要使用Subword提升ELMo的性能,思路很简单。这里主要看一下网络结构。 ? 稍微扩充一下Highway Network,论文,公式如下,其中T=sigmoid(wx + b): ? 流程图 ? 对比ResNet ?

    1K20发布于 2019-12-18
  • 来自专栏JNing的专栏

    论文阅读: ResNet

    Introduction ResNet论文是里程碑级的basemodel,因此获得了 CVPR 2016 Best Paper,并统领江湖至今: ? 后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP值、比赛打榜的首选basemodel。

    1.3K30发布于 2018-09-27
  • 来自专栏YZh学习记录

    CAM 论文阅读

    生成CAM的过程如图2。 在ILSVRC验证集上的定位性能见Tbl2,输出示例图见图5。 参考链接: 论文翻译参考: https://cloud.tencent.com/developer/article/1390900 https://zhuanlan.zhihu.com/p/27587399 utm_medium=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param&depth _1-utm_source=distribute.pc_relevant.none-task-blog-BlogCommendFromMachineLearnPai2-2.channel_param 代码解释及修改参考

    1.4K50发布于 2020-09-21
  • 来自专栏JNing的专栏

    论文阅读: ShuffleNet

    作者注意到,像Xception、ResNeXt这么好的网络结构,一旦被压缩为小网络,就会性能低下。这也导致了这类先进的网络结构无法被落地到移动设备上。

    58730发布于 2018-09-27
  • 来自专栏mathor

    WAVENET论文阅读

    这篇论文提出了WaveNet,一个生成原始音频波形的深度神经网络。 这篇论文要解决的问题是,同样的方法是否可以在宽带原始音频波形的生成中奏效,这些音频波形信号具有非常高的时间分辨率,至少每秒16000个样本(参照图1) 这篇论文介绍WaveNet,一个基于PixelCNN ,x_t)不会依赖任何一个未来时刻的数据x_{t+1},x_{t+2},...,x_T,如图2所示。 例如,在图2中,感受野只有5(= 层数 + 卷积核长度 - 1)。在这篇论文中,我们使用扩大卷积(dilated convolution)使感受野增大几个数量级,同时不会显著增加计算成本 ? 本论文中,扩大系数每层都翻倍直到上限,然后重复循环,如: 1,2,4,…,512,1,2,4,…,512,1,2,4,…,512 这种配置其背后的直觉有两个。

    1.4K30发布于 2020-08-10
  • 来自专栏JNing的专栏

    论文阅读: DenseNet

    将原本ResNet的 “串行式一对一的identity mapping” 变成了 “一对多的identity mapping”:

    69830发布于 2018-09-27
  • 来自专栏YZh学习记录

    squeezenet 论文阅读

    值得赞扬的是,每一篇论文都提供了一个案例,在这个案例中,提出的DSE方法产生了一个NN体系结构,与一个具有代表性的基础神经网络相比,它的精确度的确更高。 然而, 这些论文并没有试图提供关于神经网络设计空间形状的直觉。 这些选择背后的直觉可以在下面引用的论文中找到。 =0.5,freq=2。 7 论文阅读总结 关于神经网络的部分理解: CNN微结构 CNN宏观结构 关于模型压缩的方法: 这方面理论基础为无,后续加强。

    71310发布于 2020-09-08
  • 来自专栏Yunfeng's Simple Blog

    FastViT 论文阅读

    概述 论文地址:arxiv 代码地址:ml-fastvit FastViT 是苹果公司在 ICCV 2023上发表的网络结构设计的论文,在速度和精度上取得比较好的折衷,速度上既能和MobileOne这种轻量级网络匹敌 整个网络的的大部分模块是以MobileOne 的核心 MobileOneBlock 打底的,所以说是 MobileOne V2 也不为过。 2. RepMixer ConvMixer 提出了用Conv网络替代ViT网络的方法,在效果上超越了ViT方法。 具体代码实现时,训练时采用了2个MobileOneBlock,分别表示mixer和normal,与原始输入x相加;推理的时候去掉残差相加,直接转换为一个MobileOne模块: 3. 另外 FastViT 的代码实现很简洁优雅,阅读起来很舒服,后面有空可以写一篇代码阅读的文章,欢迎感兴趣的小伙伴关注、点赞和评论区留言~

    45920编辑于 2023-10-23
  • 来自专栏JNing的专栏

    论文阅读: SSD

    论文中提到的“default box”,其实就是“anchor”: ? 具体地,SSD分别在 conv4_3、fc7、conv8_2、conv9_2、conv10_2、conv11_2 这六个逐级scale/2×2的feature map上,按照 K 依次等于 4、6、6、 Result 在VOC2007上,SSD的检测精度高过当时的精度之王Faster R-CNN (然而这只是论文中给出来的数据,实际上精度差了Faster R-CNN一大截): ? 最近工作主要是看论文,发现要想把整条Detection的脉络捋清晰,建立自己的一套认知,还是很花功夫的。 ---- [1] SSD: Single Shot MultiBox Detector [2] 深度学习论文笔记:SSD [3] 检测任务专题1: SSD在训练什么 [4] SSD关键源码解析

    2K20发布于 2018-09-27
  • 来自专栏mathor

    VGG论文阅读

    论文下载 VGG 是 ImageNet 2014 年目标定位竞赛的第一名,图像分类竞赛的第二名 VGG论文图 ? 摘要中,作者研究了模型深度与精确度之间的关系。" 在引言中,作者提到了其他一些论文研究,有的人着眼于用尺寸更小的filter和第一层卷积的stride,还有的人在整个图像和多个尺度上对网络进行密集地训练和测试。 这篇论文主要是对模型的深度进行改进,固定其他的超参数,通过不断的增加层数,其中的技巧是因为作者所有的filter都使用的非常小的(3×3)的卷积滤波器 ? max-pooling的filter为2×2,stride=2 卷积层后是三个FC(全连接层),前两层都有4096个神经元,最后一层1000个 所有的隐藏层都设置ReLU为激活函数。 表2列出了每种网络的参数数量,"尽管深度很大,我们的网络中权重数量并不大于具有更大卷积层宽度和感受野的较浅网络中的权重数量" ?

    82810发布于 2019-12-30
领券