首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏我还不懂对话

    论文阅读】- 怎么快速阅读ML论文

    机器学习的论文很多,怎么从Arxiv上泛滥的文章中选择论文阅读,那么我们就需要快速地了解论文内容概要,从而决定是否精读。 那么怎么快速阅读呢,作者提出只需要阅读过程中只需要回答出以下5个简单问题即可:1. 文章的模型(函数)的输入是什么? 5. 论文里面的说法是否可靠?个人理解,是说论文里面指标是否靠谱,方法是否实用等。凭我自己的经验,一般可以从以下几点来看:论文方法是否过于trick,是否非常复杂(奥卡姆剃刀原理)。 一般很好的论文思想都很简单,反而是一些水文花里胡哨,指标提升像极了随机波动。是否开源代码。这个很重要,开源也分很多级别:第一档:被开源框架集成,那么这种算法基本没啥问题,方法也是被业界其他人认可。

    73120编辑于 2022-10-08
  • 来自专栏Yunfeng's Simple Blog

    VitPose 论文阅读

    论文不长,这周末读了一遍,感觉值得借鉴的地方挺多,这里我用自己的语言描述论文的细节,同时把自己的一些疑惑和思考写下来,欢迎讨论交流。 论文标题: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 论文地址:https://arxiv.org/abs /2204.12484 代码地址:https://github.com/ViTAE-Transformer/ViTPose 注:本文中框图和表格均来自原论文。 继续阅读前的几个疑问 读完摘要和Introduction部分,我决定继续精读这篇论文,因此在进一步阅读前,为了提升对论文的理解程度,我想出了下面的问题,希望在读完剩余部分的时候,这些问题都能得到回答: SOTA结果是在576x432输入,采用1B参数量的ViTAE-G作为backbone,使用MS COCO + AI Challenger训练的情况下获得的,具体如下: 5 几个疑问的答案: 相信经过上面的细节描述

    49520编辑于 2023-10-23
  • 来自专栏NLP算法工程师之路

    论文阅读-20190924

    论文1 《SANVis: Visual Analytics for Understanding Self-Attention Networks》 简介 这一篇文章是关于Self-Attention可视化的 论文2 《BERT Meets Chinese Word Segmentation》 简介 这篇论文介绍BERT用于中文分词任务的。 论文结果 BERT可以稍微提高CWS任务的性能。就Softmax分类器来说,MSR数据集和PKU数据集F1分数分别有+0.3和+0.4提高。 充分训练的时候,CRF和Softmax达到相同的性能。 论文4 《Subword ELMo》 简介 这篇文章主要使用Subword提升ELMo的性能,思路很简单。这里主要看一下网络结构。 ? 稍微扩充一下Highway Network,论文,公式如下,其中T=sigmoid(wx + b): ? 流程图 ? 对比ResNet ?

    1K20发布于 2019-12-18
  • 来自专栏JNing的专栏

    论文阅读: ResNet

    Introduction ResNet论文是里程碑级的basemodel,因此获得了 CVPR 2016 Best Paper,并统领江湖至今: ? 后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP值、比赛打榜的首选basemodel。

    1.3K30发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: ShuffleNet

    作者注意到,像Xception、ResNeXt这么好的网络结构,一旦被压缩为小网络,就会性能低下。这也导致了这类先进的网络结构无法被落地到移动设备上。

    58730发布于 2018-09-27
  • 来自专栏YZh学习记录

    CAM 论文阅读

    尽管global average pooling很简单,我们仍然能够在2014年的ILSVRC物体定位比赛中得到37.1%的top-5错误率,与CNN的34.2%top-5错误率非常接近。 具体来说,我们做了下面改动:对AlexNet,我们移除conv5之后的卷积层(pool5到prob),得到图分辨率(mapping resolution)为13x13。 对VGGnet,我们溢出了conv5-3后的所有卷积层(pool5到prob),得到14x14的图分辨率。 我们把预测的top-5全部如此标记出来。图6(a)展示了用这项技术生成的示例边框。在ILSVRC验证集上的定位性能见Tbl2,输出示例图见图5。 参考链接: 论文翻译参考: https://cloud.tencent.com/developer/article/1390900 https://zhuanlan.zhihu.com/p/27587399

    1.4K50发布于 2020-09-21
  • 来自专栏mathor

    WAVENET论文阅读

    这篇论文提出了WaveNet,一个生成原始音频波形的深度神经网络。 这篇论文要解决的问题是,同样的方法是否可以在宽带原始音频波形的生成中奏效,这些音频波形信号具有非常高的时间分辨率,至少每秒16000个样本(参照图1) 这篇论文介绍WaveNet,一个基于PixelCNN 例如,在图2中,感受野只有5(= 层数 + 卷积核长度 - 1)。在这篇论文中,我们使用扩大卷积(dilated convolution)使感受野增大几个数量级,同时不会显著增加计算成本 ? 在MOS测试中,听完每一个合成结果,评分者会对语音的自然度进行5分制打分(1:很差,2:差,3:一样,4:好,5:很好),详细情况请参考附录B ? 图5展示了主观配对比较测试的部分结果(全部测试结果请看附录B)。从结果来看,WaveNet在两种语言上都优于基线的参数式和拼接式语音合成器。

    1.4K30发布于 2020-08-10
  • 来自专栏JNing的专栏

    论文阅读: DenseNet

    将原本ResNet的 “串行式一对一的identity mapping” 变成了 “一对多的identity mapping”:

    69830发布于 2018-09-27
  • 来自专栏YZh学习记录

    squeezenet 论文阅读

    值得赞扬的是,每一篇论文都提供了一个案例,在这个案例中,提出的DSE方法产生了一个NN体系结构,与一个具有代表性的基础神经网络相比,它的精确度的确更高。 然而, 这些论文并没有试图提供关于神经网络设计空间形状的直觉。 这些选择背后的直觉可以在下面引用的论文中找到。 5 CNN 微体系结构设计空间探索 现在, 在5和6节中, 我们探讨了设计空间的几个方面。 7 论文阅读总结 关于神经网络的部分理解: CNN微结构 CNN宏观结构 关于模型压缩的方法: 这方面理论基础为无,后续加强。

    71310发布于 2020-09-08
  • 来自专栏Yunfeng's Simple Blog

    FastViT 论文阅读

    概述 论文地址:arxiv 代码地址:ml-fastvit FastViT 是苹果公司在 ICCV 2023上发表的网络结构设计的论文,在速度和精度上取得比较好的折衷,速度上既能和MobileOne这种轻量级网络匹敌 比较有意思的是,FastVit 这篇论文的作者列表、作者顺序都和 MobileOne 一模一样! 在这篇论文中,为了提速,先是将普通的 KxK 的Conv修改为DepthWise KxK 的 Conv + 1x1 PointWise 的 Conv层,发现在提速后精度下降,例如论文中 Table 1 为了既能跟MobileOne这种轻量级网络对比,又能在 ImageNet 上和别的模型一较高下,论文中提出了7个 Fast-ViT的变种,各个变种的设置如下: 5. 另外 FastViT 的代码实现很简洁优雅,阅读起来很舒服,后面有空可以写一篇代码阅读的文章,欢迎感兴趣的小伙伴关注、点赞和评论区留言~

    45920编辑于 2023-10-23
  • 来自专栏mathor

    VGG论文阅读

    论文下载 VGG 是 ImageNet 2014 年目标定位竞赛的第一名,图像分类竞赛的第二名 VGG论文图 ? 摘要中,作者研究了模型深度与精确度之间的关系。" 在引言中,作者提到了其他一些论文研究,有的人着眼于用尺寸更小的filter和第一层卷积的stride,还有的人在整个图像和多个尺度上对网络进行密集地训练和测试。 这篇论文主要是对模型的深度进行改进,固定其他的超参数,通过不断的增加层数,其中的技巧是因为作者所有的filter都使用的非常小的(3×3)的卷积滤波器 ? Conv层的所有stride固定为1 为了保证卷积后的大小不变,所以设置padding=1 总共有5个max-pooling layers跟在Conv后面,但并非所有的Conv后面都有。 然后作者解释了,2个3×3的Conv(no padding) == 1个5×5的Conv;3个3×3的Conv(no padding) == 1个7×7的Conv。

    82610发布于 2019-12-30
  • 来自专栏JNing的专栏

    论文阅读: SSD

    论文中提到的“default box”,其实就是“anchor”: ? Result 在VOC2007上,SSD的检测精度高过当时的精度之王Faster R-CNN (然而这只是论文中给出来的数据,实际上精度差了Faster R-CNN一大截): ? 最近工作主要是看论文,发现要想把整条Detection的脉络捋清晰,建立自己的一套认知,还是很花功夫的。 ---- [1] SSD: Single Shot MultiBox Detector [2] 深度学习论文笔记:SSD [3] 检测任务专题1: SSD在训练什么 [4] SSD关键源码解析

    2K20发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: ResNeXt

    在ImageNet-5K上: ResNeXt分类错误率更低一点: ? ? 在CIFAR-10上: ResNeXt分类top-1错误率更低一点: ? 后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP、比赛打榜的首选basemodel。

    1.8K30发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: Xception

    Introduction GoogleNet论文中研究 group size 而搞出了Inceptionv1(即多group的CNN分支)。

    2K20发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: SNIP

    对于强调自己的innovation,并使得论文被录用,反而是不利的。因此作者并没有画蛇添足。 An Analysis of Scale Invariance in Object Detection - SNIP [2] CVPR18 Detection文章选介(下) [3] 目标检测论文阅读 Object Detection – SNIP [4] [CVPR2018笔记]An Analysis of Scale Invariance in Object Detection – SNIP [5]

    1.2K20发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: SPPNet

    R-CNN中,通过在原图先抠取出很多的像素块,再分别单独进行特征抽取的方式来一个个生成proposal,很低效:

    1.5K20发布于 2018-09-27
  • 来自专栏mathor

    Tacotron论文阅读

    在这篇论文里,我们提出了Tacotron,一种端到端的生成式文本转语音模型,可以直接从字符合成语音。在<文本,声音>配对数据集上,该模型可以完全从随机初始化从头开始训练。 Tacotron 在美式英语测试里的平均主观意见评分达到了3.82分(总分是5分),在合成自然度方面优于已在生产中应用的参数模型。 对所有的试验我们使用24k赫兹采样率 在论文的MOS评分中使用r=2(解码器输出层的缩小因子),更大的r也运行的很好(例如r=5)。 解决这个问题的一个简单技巧是对补零的数据帧也进行波形重建 5 EXPERIMENTS ? 我们做了平均意见得分(MOS)测试,由测试者对合成语音的自然程度进行 5 分制的李克特量表法(Likert scale score)评分。

    1.1K20发布于 2020-08-10
  • 来自专栏mathor

    GoogLeNet论文阅读

    论文下载 在2014年的ImageNet图像识别挑战赛中,一个名叫GoogLeNet的网络结构大放异彩。它虽然在名字上向LeNet致敬,但在网络结构上已经很难看到LeNet的影子。 假设我们将Channel维当作特征维,将高和宽维度上的元素当成数据样本,那么1×1卷积层的作用与全连接层等价 image.png 讲完了NiN相关的内容,我们再回到论文中,GoogLeNet也大量使用了这个方法 作者提到这种方法的理论基础来自于Arora et al的论文Provable bounds for learning some deep representations image.png 遗憾的是 但是,使用5×5的卷积核仍会带来巨大的计算量。 为此,论文借鉴NiN结构,采用1×1卷积核来进行降维 例如,上一层的输出为100×100×128,经过具有256个输出的5×5卷积层之后(stride=1,padding=2),输出维度为100×100

    1.2K20发布于 2020-02-12
  • 来自专栏Yunfeng's Simple Blog

    VitPose 论文阅读

    论文不长,这周末读了一遍,感觉值得借鉴的地方挺多,这里我用自己的语言描述论文的细节,同时把自己的一些疑惑和思考写下来,欢迎讨论交流。 论文标题: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 论文地址:https://arxiv.org/abs /2204.12484 代码地址:https://github.com/ViTAE-Transformer/ViTPose 注:本文中框图和表格均来自原论文。 继续阅读前的几个疑问 读完摘要和Introduction部分,我决定继续精读这篇论文,因此在进一步阅读前,为了提升对论文的理解程度,我想出了下面的问题,希望在读完剩余部分的时候,这些问题都能得到回答: SOTA结果是在576x432输入,采用1B参数量的ViTAE-G作为backbone,使用MS COCO + AI Challenger训练的情况下获得的,具体如下: 5 几个疑问的答案: 相信经过上面的细节描述

    39920编辑于 2023-10-23
  • 来自专栏NLP算法工程师之路

    论文阅读-20190928

    模型结构 文章提出了阅读-排序-识别三段式模型,分别为: 段落提取模块:提取所有与问题相关的段落 阅读理解模块:阅读每个提取出来的相关段落,抽取出候选答案。其中阅读理解模块基于BERT。 本文把基于文档的阅读理解系统称之为machine reading at scale (MRS) Task(但是不知道是不是这篇文章首先提出的这个概念)。 但是这篇论文有个缺点就是第一步检索或者叫召回文档的时候精确率不高(500万文档中召回Top5),一般召回的文档是包含问题里面的词语的,但是由于召回的文档不全是和问题相关的。 现有的DS-QA模型通常从大型语料库中检索相关段落并运用阅读理解技术从最相关的段落中提取答案。 他们忽略了其他段落中包含的丰富信息。 论文代码:https://github.com/thunlp/OpenQA 论文5 《Evidence Aggregation for Answer Re-Ranking in Open-Domain

    1.3K30发布于 2019-12-18
领券