机器学习的论文很多,怎么从Arxiv上泛滥的文章中选择论文阅读,那么我们就需要快速地了解论文内容概要,从而决定是否精读。 那么怎么快速阅读呢,作者提出只需要阅读过程中只需要回答出以下5个简单问题即可:1. 文章的模型(函数)的输入是什么? 论文里面的说法是否可靠?个人理解,是说论文里面指标是否靠谱,方法是否实用等。凭我自己的经验,一般可以从以下几点来看:论文方法是否过于trick,是否非常复杂(奥卡姆剃刀原理)。 一般很好的论文思想都很简单,反而是一些水文花里胡哨,指标提升像极了随机波动。是否开源代码。这个很重要,开源也分很多级别:第一档:被开源框架集成,那么这种算法基本没啥问题,方法也是被业界其他人认可。
本文将深入解析一个基于腾讯云智能体开发平台(TencentCloudADP)构建的论文阅读助手智能体,该系统通过意图识别技术,能够智能理解用户查询需求,并提供三种核心功能:关键词搜索论文、获取论文摘要、 效果展示体验链接:https://adp.cloud.tencent.com/webim_exp/#/chat/sLwPrU整体架构这个论文阅读助手智能体具备以下核心能力:1.智能意图识别:a.自动识别用户查询意图 b.支持自然语言交互c.基于Youtu/youtu-mrc-pro大模型2.多维度论文查询:a.根据关键词搜索论文b.根据论文ID获取详细摘要c.搜索论文相关解读和宣传稿3.智能内容处理:a.自动翻译英文论文摘要 a.示例查询:“找找这一周的NLP相关论文”b.路由目标:参数提取1→论文搜索工具2.根据论文ID获取摘要a.示例查询:“我想看看第一篇论文的摘要”b.路由目标:参数提取11→摘要获取工具3.搜索论文相关解读 ,系统提供了完善的兜底处理:兜底回复节点●节点名称:回复3●回复内容:“抱歉我无法回答其他问题”●功能:为超出系统能力范围的查询提供礼貌的拒绝回复总结通过对实际工作流配置文件的深入分析,我们了解了这个论文阅读助手系统的真实技术架构
论文不长,这周末读了一遍,感觉值得借鉴的地方挺多,这里我用自己的语言描述论文的细节,同时把自己的一些疑惑和思考写下来,欢迎讨论交流。 论文标题: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 论文地址:https://arxiv.org/abs /2204.12484 代码地址:https://github.com/ViTAE-Transformer/ViTPose 注:本文中框图和表格均来自原论文。 继续阅读前的几个疑问 读完摘要和Introduction部分,我决定继续精读这篇论文,因此在进一步阅读前,为了提升对论文的理解程度,我想出了下面的问题,希望在读完剩余部分的时候,这些问题都能得到回答: ViT结构来做姿态估计,但是为了达到较高的精度,后面还是挺多提点的实验 7 参考 [1] SimpleBaseline: https://arxiv.org/abs/1804.06208 [2] Bigdetection
论文1 《SANVis: Visual Analytics for Understanding Self-Attention Networks》 简介 这一篇文章是关于Self-Attention可视化的 论文2 《BERT Meets Chinese Word Segmentation》 简介 这篇论文介绍BERT用于中文分词任务的。 论文结果 BERT可以稍微提高CWS任务的性能。就Softmax分类器来说,MSR数据集和PKU数据集F1分数分别有+0.3和+0.4提高。 充分训练的时候,CRF和Softmax达到相同的性能。 论文4 《Subword ELMo》 简介 这篇文章主要使用Subword提升ELMo的性能,思路很简单。这里主要看一下网络结构。 ? 稍微扩充一下Highway Network,论文,公式如下,其中T=sigmoid(wx + b): ? 流程图 ? 对比ResNet ?
Introduction ResNet论文是里程碑级的basemodel,因此获得了 CVPR 2016 Best Paper,并统领江湖至今: ? 后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP值、比赛打榜的首选basemodel。
我们是认为GoogLeNet(7x7)的低分辨率导致它丢失了精确地定位能力。 表5对比了我们最好的网络GoogLeNet-GAP提取的特征与AlexNet的fc7提取的特征和GoogLeNet的ave pool提的特征比较。 我们在图7中足了一些可视化,进一步验证了我们方法的定位能力。 4.2 Pattern Discovery 这一部分,探索我们的技术是否能识别一般元素或出物体外的图片模式,比如文本或者更高维的概念。 参考链接: 论文翻译参考: https://cloud.tencent.com/developer/article/1390900 https://zhuanlan.zhihu.com/p/27587399 https://www.jianshu.com/p/1a207e7ca460 https://blog.csdn.net/Dominic_S/article/details/81209887?
作者注意到,像Xception、ResNeXt这么好的网络结构,一旦被压缩为小网络,就会性能低下。这也导致了这类先进的网络结构无法被落地到移动设备上。
论文下载 谷歌DeepMind2016年的深度生成模型 WaveNet 将机器语音合成的表现与人类之间水平的差距至少缩减了 50% ABSTRACT ? 这篇论文提出了WaveNet,一个生成原始音频波形的深度神经网络。 这篇论文要解决的问题是,同样的方法是否可以在宽带原始音频波形的生成中奏效,这些音频波形信号具有非常高的时间分辨率,至少每秒16000个样本(参照图1) 这篇论文介绍WaveNet,一个基于PixelCNN 这篇论文中,我们提出一个新的生成模型,它能直接产生原始音频波形。音频波形的联合概率x=\{x_1,... 在这篇论文中,我们使用扩大卷积(dilated convolution)使感受野增大几个数量级,同时不会显著增加计算成本 ?
将原本ResNet的 “串行式一对一的identity mapping” 变成了 “一对多的identity mapping”:
值得赞扬的是,每一篇论文都提供了一个案例,在这个案例中,提出的DSE方法产生了一个NN体系结构,与一个具有代表性的基础神经网络相比,它的精确度的确更高。 然而, 这些论文并没有试图提供关于神经网络设计空间形状的直觉。 这些选择背后的直觉可以在下面引用的论文中找到。 image.png 我们的简单旁路体系结构在3、5、7和9的Fire模块附近添加旁路连接, 要求这些模块在输入和输出之间学习残差函数。 7 论文阅读总结 关于神经网络的部分理解: CNN微结构 CNN宏观结构 关于模型压缩的方法: 这方面理论基础为无,后续加强。
概述 论文地址:arxiv 代码地址:ml-fastvit FastViT 是苹果公司在 ICCV 2023上发表的网络结构设计的论文,在速度和精度上取得比较好的折衷,速度上既能和MobileOne这种轻量级网络匹敌 为了缓解 Self-Attention 模块计算量太大的问题,在浅层特征图比较大的情况下,采用 Large Kernel,也就是7x7 Kernel Size 的Conv网络。 因此最终网络结构设计上,在每个Stage开始的时候,采用 7x7 的 MobileOneBlock。7x7 的 Kernel Size 也是通过实验试出来的。 为了既能跟MobileOne这种轻量级网络对比,又能在 ImageNet 上和别的模型一较高下,论文中提出了7个 Fast-ViT的变种,各个变种的设置如下: 5. 另外 FastViT 的代码实现很简洁优雅,阅读起来很舒服,后面有空可以写一篇代码阅读的文章,欢迎感兴趣的小伙伴关注、点赞和评论区留言~
在论文中提到的“default box”,其实就是“anchor”: ? 具体地,SSD分别在 conv4_3、fc7、conv8_2、conv9_2、conv10_2、conv11_2 这六个逐级scale/2×2的feature map上,按照 K 依次等于 4、6、6、 Result 在VOC2007上,SSD的检测精度高过当时的精度之王Faster R-CNN (然而这只是论文中给出来的数据,实际上精度差了Faster R-CNN一大截): ? 最近工作主要是看论文,发现要想把整条Detection的脉络捋清晰,建立自己的一套认知,还是很花功夫的。 ---- [1] SSD: Single Shot MultiBox Detector [2] 深度学习论文笔记:SSD [3] 检测任务专题1: SSD在训练什么 [4] SSD关键源码解析
论文下载 VGG 是 ImageNet 2014 年目标定位竞赛的第一名,图像分类竞赛的第二名 VGG论文图 ? 摘要中,作者研究了模型深度与精确度之间的关系。" 在引言中,作者提到了其他一些论文研究,有的人着眼于用尺寸更小的filter和第一层卷积的stride,还有的人在整个图像和多个尺度上对网络进行密集地训练和测试。 这篇论文主要是对模型的深度进行改进,固定其他的超参数,通过不断的增加层数,其中的技巧是因为作者所有的filter都使用的非常小的(3×3)的卷积滤波器 ? 2.3节主要讨论作者使用的模型和其他的模型区别,其他的一些竞赛模型的filter size要不就是11×11,要不就是7×7,11×11的stride=4,7×7的stride=2。 然后作者解释了,2个3×3的Conv(no padding) == 1个5×5的Conv;3个3×3的Conv(no padding) == 1个7×7的Conv。
后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP、比赛打榜的首选basemodel。
Introduction GoogleNet论文中研究 group size 而搞出了Inceptionv1(即多group的CNN分支)。
对于强调自己的innovation,并使得论文被录用,反而是不利的。因此作者并没有画蛇添足。 An Analysis of Scale Invariance in Object Detection - SNIP [2] CVPR18 Detection文章选介(下) [3] 目标检测论文阅读
R-CNN中,通过在原图先抠取出很多的像素块,再分别单独进行特征抽取的方式来一个个生成proposal,很低效:
论文下载 Tacotron是谷歌于2017年提出的端到端语音合成系统,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音 ABSTARCT ? 在这篇论文里,我们提出了Tacotron,一种端到端的生成式文本转语音模型,可以直接从字符合成语音。在<文本,声音>配对数据集上,该模型可以完全从随机初始化从头开始训练。 在这篇论文中,我们提出了Tacotron,一个端到端的基于带注意力范式(Bahdanau et al.,2014)的序列到序列(seq2seq)(Sutskever et al.,2014)的生成式TTS CBHG是受机器翻译(Lee et al.,2016)论文的启发,我们与(Lee et al.,2016)的不同包括使用非因果卷积,批标准化,残差连接以及stride=1的最大池化处理。 对所有的试验我们使用24k赫兹采样率 在论文的MOS评分中使用r=2(解码器输出层的缩小因子),更大的r也运行的很好(例如r=5)。
论文下载 在2014年的ImageNet图像识别挑战赛中,一个名叫GoogLeNet的网络结构大放异彩。它虽然在名字上向LeNet致敬,但在网络结构上已经很难看到LeNet的影子。 作者提到这种方法的理论基础来自于Arora et al的论文Provable bounds for learning some deep representations image.png 遗憾的是 为此,论文借鉴NiN结构,采用1×1卷积核来进行降维 例如,上一层的输出为100×100×128,经过具有256个输出的5×5卷积层之后(stride=1,padding=2),输出维度为100×100 图像采样的patch大小从图像的8%到100%,选取的长宽比在3/4到4/3之间,光度扭曲也有利于减少过拟合,还使用随机插值方法结合其他超参数的改变来调整图像大小 7.ILSVRC 2014 Classification 除了本文前面提到的训练技术外,我们在获得高性能的测试中采用了一系列技巧,具体如下: image.png 训练了7个GoogLeNet,初始化和权重都相同,只是采样方法和随机输入图像不同 将图像的短边分别缩放成
论文不长,这周末读了一遍,感觉值得借鉴的地方挺多,这里我用自己的语言描述论文的细节,同时把自己的一些疑惑和思考写下来,欢迎讨论交流。 论文标题: ViTPose: Simple Vision Transformer Baselines for Human Pose Estimation 论文地址:https://arxiv.org/abs /2204.12484 代码地址:https://github.com/ViTAE-Transformer/ViTPose 注:本文中框图和表格均来自原论文。 继续阅读前的几个疑问 读完摘要和Introduction部分,我决定继续精读这篇论文,因此在进一步阅读前,为了提升对论文的理解程度,我想出了下面的问题,希望在读完剩余部分的时候,这些问题都能得到回答: ViT结构来做姿态估计,但是为了达到较高的精度,后面还是挺多提点的实验 7 参考 [1] SimpleBaseline: https://arxiv.org/abs/1804.06208 [2] Bigdetection