首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏我还不懂对话

    论文阅读】- 怎么快速阅读ML论文

    机器学习的论文很多,怎么从Arxiv上泛滥的文章中选择论文阅读,那么我们就需要快速地了解论文内容概要,从而决定是否精读。 那么怎么快速阅读呢,作者提出只需要阅读过程中只需要回答出以下5个简单问题即可:1. 文章的模型(函数)的输入是什么? 论文里面的说法是否可靠?个人理解,是说论文里面指标是否靠谱,方法是否实用等。凭我自己的经验,一般可以从以下几点来看:论文方法是否过于trick,是否非常复杂(奥卡姆剃刀原理)。 一般很好的论文思想都很简单,反而是一些水文花里胡哨,指标提升像极了随机波动。是否开源代码。这个很重要,开源也分很多级别:第一档:被开源框架集成,那么这种算法基本没啥问题,方法也是被业界其他人认可。

    72620编辑于 2022-10-08
  • 来自专栏Yunfeng's Simple Blog

    VitPose 论文阅读

    概述 VitPose是最近出来的一篇用Transformer结构做人体2D关键点估计的论文,采用比较简单的Transformer结构就能在MS COCO 测试集上取得比较好的结果,挺吸引人的。 论文不长,这周末读了一遍,感觉值得借鉴的地方挺多,这里我用自己的语言描述论文的细节,同时把自己的一些疑惑和思考写下来,欢迎讨论交流。 论文标题: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 论文地址:https://arxiv.org/abs /2204.12484 代码地址:https://github.com/ViTAE-Transformer/ViTPose 注:本文中框图和表格均来自原论文。 继续阅读前的几个疑问 读完摘要和Introduction部分,我决定继续精读这篇论文,因此在进一步阅读前,为了提升对论文的理解程度,我想出了下面的问题,希望在读完剩余部分的时候,这些问题都能得到回答:

    49420编辑于 2023-10-23
  • 来自专栏NLP算法工程师之路

    论文阅读-20190924

    论文1 《SANVis: Visual Analytics for Understanding Self-Attention Networks》 简介 这一篇文章是关于Self-Attention可视化的 论文2 《BERT Meets Chinese Word Segmentation》 简介 这篇论文介绍BERT用于中文分词任务的。 论文结果 BERT可以稍微提高CWS任务的性能。就Softmax分类器来说,MSR数据集和PKU数据集F1分数分别有+0.3和+0.4提高。 充分训练的时候,CRF和Softmax达到相同的性能。 论文4 《Subword ELMo》 简介 这篇文章主要使用Subword提升ELMo的性能,思路很简单。这里主要看一下网络结构。 ? 稍微扩充一下Highway Network,论文,公式如下,其中T=sigmoid(wx + b): ? 流程图 ? 对比ResNet ?

    1K20发布于 2019-12-18
  • 来自专栏JNing的专栏

    论文阅读: ResNet

    Introduction ResNet论文是里程碑级的basemodel,因此获得了 CVPR 2016 Best Paper,并统领江湖至今: ? 后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP值、比赛打榜的首选basemodel。

    1.3K30发布于 2018-09-27
  • 来自专栏YZh学习记录

    CAM 论文阅读

    参考链接: 论文翻译参考: https://cloud.tencent.com/developer/article/1390900 https://zhuanlan.zhihu.com/p/27587399

    1.4K50发布于 2020-09-21
  • 来自专栏JNing的专栏

    论文阅读: ShuffleNet

    作者注意到,像Xception、ResNeXt这么好的网络结构,一旦被压缩为小网络,就会性能低下。这也导致了这类先进的网络结构无法被落地到移动设备上。

    58230发布于 2018-09-27
  • 来自专栏mathor

    WAVENET论文阅读

    论文下载 谷歌DeepMind2016年的深度生成模型 WaveNet 将机器语音合成的表现与人类之间水平的差距至少缩减了 50% ABSTRACT ? 这篇论文提出了WaveNet,一个生成原始音频波形的深度神经网络。 这篇论文要解决的问题是,同样的方法是否可以在宽带原始音频波形的生成中奏效,这些音频波形信号具有非常高的时间分辨率,至少每秒16000个样本(参照图1) 这篇论文介绍WaveNet,一个基于PixelCNN 这篇论文中,我们提出一个新的生成模型,它能直接产生原始音频波形。音频波形的联合概率x=\{x_1,... 在这篇论文中,我们使用扩大卷积(dilated convolution)使感受野增大几个数量级,同时不会显著增加计算成本 ?

    1.4K30发布于 2020-08-10
  • 来自专栏mathor

    VGG论文阅读

    论文下载 VGG 是 ImageNet 2014 年目标定位竞赛的第一名,图像分类竞赛的第二名 VGG论文图 ? 摘要中,作者研究了模型深度与精确度之间的关系。" 在引言中,作者提到了其他一些论文研究,有的人着眼于用尺寸更小的filter和第一层卷积的stride,还有的人在整个图像和多个尺度上对网络进行密集地训练和测试。 这篇论文主要是对模型的深度进行改进,固定其他的超参数,通过不断的增加层数,其中的技巧是因为作者所有的filter都使用的非常小的(3×3)的卷积滤波器 ?

    82410发布于 2019-12-30
  • 来自专栏JNing的专栏

    论文阅读: DenseNet

    将原本ResNet的 “串行式一对一的identity mapping” 变成了 “一对多的identity mapping”:

    69630发布于 2018-09-27
  • 来自专栏Yunfeng's Simple Blog

    FastViT 论文阅读

    概述 论文地址:arxiv 代码地址:ml-fastvit FastViT 是苹果公司在 ICCV 2023上发表的网络结构设计的论文,在速度和精度上取得比较好的折衷,速度上既能和MobileOne这种轻量级网络匹敌 比较有意思的是,FastVit 这篇论文的作者列表、作者顺序都和 MobileOne 一模一样! 下面是过参数化的示意图(图片来自这里): MobileOne 论文中就采用了过参数模块,验证可以提高网络的学习能力。 在这篇论文中,为了提速,先是将普通的 KxK 的Conv修改为DepthWise KxK 的 Conv + 1x1 PointWise 的 Conv层,发现在提速后精度下降,例如论文中 Table 1 另外 FastViT 的代码实现很简洁优雅,阅读起来很舒服,后面有空可以写一篇代码阅读的文章,欢迎感兴趣的小伙伴关注、点赞和评论区留言~

    43320编辑于 2023-10-23
  • 来自专栏JNing的专栏

    论文阅读: SSD

    论文中提到的“default box”,其实就是“anchor”: ? Result 在VOC2007上,SSD的检测精度高过当时的精度之王Faster R-CNN (然而这只是论文中给出来的数据,实际上精度差了Faster R-CNN一大截): ? 最近工作主要是看论文,发现要想把整条Detection的脉络捋清晰,建立自己的一套认知,还是很花功夫的。 ---- [1] SSD: Single Shot MultiBox Detector [2] 深度学习论文笔记:SSD [3] 检测任务专题1: SSD在训练什么 [4] SSD关键源码解析

    2K20发布于 2018-09-27
  • 来自专栏YZh学习记录

    squeezenet 论文阅读

    值得赞扬的是,每一篇论文都提供了一个案例,在这个案例中,提出的DSE方法产生了一个NN体系结构,与一个具有代表性的基础神经网络相比,它的精确度的确更高。 然而, 这些论文并没有试图提供关于神经网络设计空间形状的直觉。 这些选择背后的直觉可以在下面引用的论文中找到。 7 论文阅读总结 关于神经网络的部分理解: CNN微结构 CNN宏观结构 关于模型压缩的方法: 这方面理论基础为无,后续加强。

    70610发布于 2020-09-08
  • 来自专栏JNing的专栏

    论文阅读: ResNeXt

    后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP、比赛打榜的首选basemodel。

    1.8K30发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: Xception

    Introduction GoogleNet论文中研究 group size 而搞出了Inceptionv1(即多group的CNN分支)。

    1.9K20发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: SPPNet

    R-CNN中,通过在原图先抠取出很多的像素块,再分别单独进行特征抽取的方式来一个个生成proposal,很低效:

    1.5K20发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: SNIP

    对于强调自己的innovation,并使得论文被录用,反而是不利的。因此作者并没有画蛇添足。 An Analysis of Scale Invariance in Object Detection - SNIP [2] CVPR18 Detection文章选介(下) [3] 目标检测论文阅读

    1.2K20发布于 2018-09-27
  • 来自专栏Yunfeng's Simple Blog

    VitPose 论文阅读

    概述 VitPose是最近出来的一篇用Transformer结构做人体2D关键点估计的论文,采用比较简单的Transformer结构就能在MS COCO 测试集上取得比较好的结果,挺吸引人的。 论文不长,这周末读了一遍,感觉值得借鉴的地方挺多,这里我用自己的语言描述论文的细节,同时把自己的一些疑惑和思考写下来,欢迎讨论交流。 论文标题: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 论文地址:https://arxiv.org/abs /2204.12484 代码地址:https://github.com/ViTAE-Transformer/ViTPose 注:本文中框图和表格均来自原论文。 继续阅读前的几个疑问 读完摘要和Introduction部分,我决定继续精读这篇论文,因此在进一步阅读前,为了提升对论文的理解程度,我想出了下面的问题,希望在读完剩余部分的时候,这些问题都能得到回答:

    38820编辑于 2023-10-23
  • 来自专栏mathor

    Tacotron论文阅读

    论文下载 Tacotron是谷歌于2017年提出的端到端语音合成系统,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音 ABSTARCT ? 在这篇论文里,我们提出了Tacotron,一种端到端的生成式文本转语音模型,可以直接从字符合成语音。在<文本,声音>配对数据集上,该模型可以完全从随机初始化从头开始训练。 在这篇论文中,我们提出了Tacotron,一个端到端的基于带注意力范式(Bahdanau et al.,2014)的序列到序列(seq2seq)(Sutskever et al.,2014)的生成式TTS CBHG是受机器翻译(Lee et al.,2016)论文的启发,我们与(Lee et al.,2016)的不同包括使用非因果卷积,批标准化,残差连接以及stride=1的最大池化处理。 对所有的试验我们使用24k赫兹采样率 在论文的MOS评分中使用r=2(解码器输出层的缩小因子),更大的r也运行的很好(例如r=5)。

    1.1K20发布于 2020-08-10
  • 来自专栏mathor

    GoogLeNet论文阅读

    论文下载 在2014年的ImageNet图像识别挑战赛中,一个名叫GoogLeNet的网络结构大放异彩。它虽然在名字上向LeNet致敬,但在网络结构上已经很难看到LeNet的影子。 假设我们将Channel维当作特征维,将高和宽维度上的元素当成数据样本,那么1×1卷积层的作用与全连接层等价 image.png 讲完了NiN相关的内容,我们再回到论文中,GoogLeNet也大量使用了这个方法 作者提到这种方法的理论基础来自于Arora et al的论文Provable bounds for learning some deep representations image.png 遗憾的是 为此,论文借鉴NiN结构,采用1×1卷积核来进行降维 例如,上一层的输出为100×100×128,经过具有256个输出的5×5卷积层之后(stride=1,padding=2),输出维度为100×100

    1.2K20发布于 2020-02-12
  • 来自专栏NLP算法工程师之路

    论文阅读-20190928

    模型结构 文章提出了阅读-排序-识别三段式模型,分别为: 段落提取模块:提取所有与问题相关的段落 阅读理解模块:阅读每个提取出来的相关段落,抽取出候选答案。其中阅读理解模块基于BERT。 本文把基于文档的阅读理解系统称之为machine reading at scale (MRS) Task(但是不知道是不是这篇文章首先提出的这个概念)。 现有的DS-QA模型通常从大型语料库中检索相关段落并运用阅读理解技术从最相关的段落中提取答案。 他们忽略了其他段落中包含的丰富信息。 为了解决这些问题,我们提出了一种新颖的DS-QA模型,该模型采用段落选择器过滤掉那些嘈杂的段落,并使用段落阅读器从那些去噪的段落中提取正确答案。 回答开放域问题的最新流行方法是首先搜索与问题相关的段落,然后应用阅读理解模型来提取答案。 现有方法通常从单个段落中独立提取答案。 但是,有些问题需要来自不同来源的综合证据才能正确回答。

    1.3K30发布于 2019-12-18
领券