首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏我还不懂对话

    论文阅读】- 怎么快速阅读ML论文

    机器学习的论文很多,怎么从Arxiv上泛滥的文章中选择论文阅读,那么我们就需要快速地了解论文内容概要,从而决定是否精读。 那么怎么快速阅读呢,作者提出只需要阅读过程中只需要回答出以下5个简单问题即可:1. 文章的模型(函数)的输入是什么? 4. 训练完成后模型是否对未见数据具有泛化性?个人认为是训练数据是否和真实世界数据分布一致? 论文里面的说法是否可靠?个人理解,是说论文里面指标是否靠谱,方法是否实用等。凭我自己的经验,一般可以从以下几点来看:论文方法是否过于trick,是否非常复杂(奥卡姆剃刀原理)。 一般很好的论文思想都很简单,反而是一些水文花里胡哨,指标提升像极了随机波动。是否开源代码。这个很重要,开源也分很多级别:第一档:被开源框架集成,那么这种算法基本没啥问题,方法也是被业界其他人认可。

    73120编辑于 2022-10-08
  • 论文阅读助手:用腾讯云ADP打造基于意图识别的智能论文查询系统

    本文将深入解析一个基于腾讯云智能体开发平台(TencentCloudADP)构建的论文阅读助手智能体,该系统通过意图识别技术,能够智能理解用户查询需求,并提供三种核心功能:关键词搜索论文、获取论文摘要、 效果展示体验链接:https://adp.cloud.tencent.com/webim_exp/#/chat/sLwPrU整体架构这个论文阅读助手智能体具备以下核心能力:1.智能意图识别:a.自动识别用户查询意图 b.智能整理和格式化搜索结果c.提供用户友好的回复格式4.多源数据整合:a.集成自定义论文数据库APIb.整合搜狗网页搜索服务分步骤详解第一步:智能意图识别系统的核心是基于大模型的意图识别引擎,能够准确理解用户的查询需求 ,返回用户友好的信息”●功能:将搜索结果格式化为用户友好的信息4.结果回复●回复内容:格式化后的论文列表信息第三步:论文摘要获取流程当用户需要获取特定论文的摘要时,系统执行以下流程:1.参数提取●节点名称 ,系统提供了完善的兜底处理:兜底回复节点●节点名称:回复3●回复内容:“抱歉我无法回答其他问题”●功能:为超出系统能力范围的查询提供礼貌的拒绝回复总结通过对实际工作流配置文件的深入分析,我们了解了这个论文阅读助手系统的真实技术架构

    13210编辑于 2026-02-25
  • 来自专栏Yunfeng's Simple Blog

    VitPose 论文阅读

    论文不长,这周末读了一遍,感觉值得借鉴的地方挺多,这里我用自己的语言描述论文的细节,同时把自己的一些疑惑和思考写下来,欢迎讨论交流。 继续阅读前的几个疑问 读完摘要和Introduction部分,我决定继续精读这篇论文,因此在进一步阅读前,为了提升对论文的理解程度,我想出了下面的问题,希望在读完剩余部分的时候,这些问题都能得到回答: 4. 实现细节 4.1 整体结构 网络结构设计比较简单,整体为采用ViT backbone + decoder的形式。 backbone根据计算量大小,选用了Vit-B, ViT-L,ViT-H[3]以及ViTAE-G[4]。 双线性差值上采样4倍,然后是ReLU+3x3conv,不过论文中公式与描述不符,ReLU在双线性上采样之前,需要看代码实现具体是哪一种。

    49520编辑于 2023-10-23
  • 来自专栏NLP算法工程师之路

    论文阅读-20190924

    论文1 《SANVis: Visual Analytics for Understanding Self-Attention Networks》 简介 这一篇文章是关于Self-Attention可视化的 论文2 《BERT Meets Chinese Word Segmentation》 简介 这篇论文介绍BERT用于中文分词任务的。 论文结果 BERT可以稍微提高CWS任务的性能。就Softmax分类器来说,MSR数据集和PKU数据集F1分数分别有+0.3和+0.4提高。 充分训练的时候,CRF和Softmax达到相同的性能。 论文4 《Subword ELMo》 简介 这篇文章主要使用Subword提升ELMo的性能,思路很简单。这里主要看一下网络结构。 ? 稍微扩充一下Highway Network,论文,公式如下,其中T=sigmoid(wx + b): ? 流程图 ? 对比ResNet ?

    1K20发布于 2019-12-18
  • 来自专栏JNing的专栏

    论文阅读: ResNet

    Introduction ResNet论文是里程碑级的basemodel,因此获得了 CVPR 2016 Best Paper,并统领江湖至今: ? 后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP值、比赛打榜的首选basemodel。

    1.3K30发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: ShuffleNet

    作者注意到,像Xception、ResNeXt这么好的网络结构,一旦被压缩为小网络,就会性能低下。这也导致了这类先进的网络结构无法被落地到移动设备上。

    58730发布于 2018-09-27
  • 来自专栏YZh学习记录

    CAM 论文阅读

    对GoogLeNet,我们溢出了inception4e后的卷积层(pool4到prob),得到14x14的图分辨率。 image.png 4 Deep Features for Generic Localization CNN的更高层(比如AlexNet的fc6,fc7)已经被证明能提取到很有效的通用特征(generic 表4总结了结果。 image.png 我们发现,GoogLeNet-GAP与现有方法表现相当,在没有用任何带边界标记的数据训练过的情况下得到了全图(full-image)63%的准确率。 参考链接: 论文翻译参考: https://cloud.tencent.com/developer/article/1390900 https://zhuanlan.zhihu.com/p/27587399

    1.4K50发布于 2020-09-21
  • 来自专栏mathor

    WAVENET论文阅读

    这篇论文提出了WaveNet,一个生成原始音频波形的深度神经网络。 这篇论文要解决的问题是,同样的方法是否可以在宽带原始音频波形的生成中奏效,这些音频波形信号具有非常高的时间分辨率,至少每秒16000个样本(参照图1) 这篇论文介绍WaveNet,一个基于PixelCNN 这篇论文中,我们提出一个新的生成模型,它能直接产生原始音频波形。音频波形的联合概率x=\{x_1,... 图3描绘了扩大因子为1,2,4,8的扩大因果卷积。 本论文中,扩大系数每层都翻倍直到上限,然后重复循环,如: 1,2,4,…,512,1,2,4,…,512,1,2,4,…,512 这种配置其背后的直觉有两个。

    1.4K30发布于 2020-08-10
  • 来自专栏JNing的专栏

    论文阅读: DenseNet

    将原本ResNet的 “串行式一对一的identity mapping” 变成了 “一对多的identity mapping”:

    69830发布于 2018-09-27
  • 来自专栏YZh学习记录

    squeezenet 论文阅读

    值得赞扬的是,每一篇论文都提供了一个案例,在这个案例中,提出的DSE方法产生了一个NN体系结构,与一个具有代表性的基础神经网络相比,它的精确度的确更高。 然而, 这些论文并没有试图提供关于神经网络设计空间形状的直觉。 这些选择背后的直觉可以在下面引用的论文中找到。 https://github.com/forresti/SqueezeNet image.png 4 评估SQUEEZENET 在评估 SqueezeNet 时, 我们使用 AlexNet[4] 和相关的模型压缩结果作为比较的基准 7 论文阅读总结 关于神经网络的部分理解: CNN微结构 CNN宏观结构 关于模型压缩的方法: 这方面理论基础为无,后续加强。

    71310发布于 2020-09-08
  • 来自专栏Yunfeng's Simple Blog

    FastViT 论文阅读

    概述 论文地址:arxiv 代码地址:ml-fastvit FastViT 是苹果公司在 ICCV 2023上发表的网络结构设计的论文,在速度和精度上取得比较好的折衷,速度上既能和MobileOne这种轻量级网络匹敌 这是网络整体的结构图: 整体还是分成Stem和4个Stage,以及最后的输出Head。可以看到所有结构都在推理时进行了重参数化,保证只有一个网络分支。 在这篇论文中,为了提速,先是将普通的 KxK 的Conv修改为DepthWise KxK 的 Conv + 1x1 PointWise 的 Conv层,发现在提速后精度下降,例如论文中 Table 1 当然这部分的结构优化其实比较”水”,是现有的两个工作的简单组合…… 4. 另外 FastViT 的代码实现很简洁优雅,阅读起来很舒服,后面有空可以写一篇代码阅读的文章,欢迎感兴趣的小伙伴关注、点赞和评论区留言~

    45920编辑于 2023-10-23
  • 来自专栏JNing的专栏

    论文阅读: SSD

    论文中提到的“default box”,其实就是“anchor”: ? 具体地,SSD分别在 conv4_3、fc7、conv8_2、conv9_2、conv10_2、conv11_2 这六个逐级scale/2×2的feature map上,按照 K 依次等于 4、6、6、 6、44 来在每层的feature map上逐点生成K个anchor: ? 最近工作主要是看论文,发现要想把整条Detection的脉络捋清晰,建立自己的一套认知,还是很花功夫的。 ---- [1] SSD: Single Shot MultiBox Detector [2] 深度学习论文笔记:SSD [3] 检测任务专题1: SSD在训练什么 [4] SSD关键源码解析

    2K20发布于 2018-09-27
  • 来自专栏mathor

    VGG论文阅读

    论文下载 VGG 是 ImageNet 2014 年目标定位竞赛的第一名,图像分类竞赛的第二名 VGG论文图 ? 摘要中,作者研究了模型深度与精确度之间的关系。" 在引言中,作者提到了其他一些论文研究,有的人着眼于用尺寸更小的filter和第一层卷积的stride,还有的人在整个图像和多个尺度上对网络进行密集地训练和测试。 这篇论文主要是对模型的深度进行改进,固定其他的超参数,通过不断的增加层数,其中的技巧是因为作者所有的filter都使用的非常小的(3×3)的卷积滤波器 ? 2.3节主要讨论作者使用的模型和其他的模型区别,其他的一些竞赛模型的filter size要不就是11×11,要不就是7×7,11×11的stride=4,7×7的stride=2。

    82810发布于 2019-12-30
  • 来自专栏JNing的专栏

    论文阅读: ResNeXt

    后两者结构复杂,在大数据集和更深的网络上效果略优于ResNet,因此成为论文刷AP、比赛打榜的首选basemodel。

    1.8K30发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: Xception

    Introduction GoogleNet论文中研究 group size 而搞出了Inceptionv1(即多group的CNN分支)。 此后,Inception不断迭代,group size被越玩越复杂,一直发展到了v4版本。

    2K20发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: SNIP

    对于强调自己的innovation,并使得论文被录用,反而是不利的。因此作者并没有画蛇添足。 An Analysis of Scale Invariance in Object Detection - SNIP [2] CVPR18 Detection文章选介(下) [3] 目标检测论文阅读 :An Analysis of Scale Invariance in Object Detection – SNIP [4] [CVPR2018笔记]An Analysis of Scale Invariance

    1.2K20发布于 2018-09-27
  • 来自专栏JNing的专栏

    论文阅读: SPPNet

    假设最后一个卷积层输出的feature map tensor的size为 W×H×CW×H×CW\times H\times C ,那么红框部分其实就是 滑窗size 为 W/4×H/4×CW/4×H/ 4×CW/4\times H/4\times C 的 average pooling: ? 最后,三种size的average pooling会生成 16+4+1=2116+4+1=2116+4+1=21 根vector。

    1.5K20发布于 2018-09-27
  • 来自专栏mathor

    Tacotron论文阅读

    论文下载 Tacotron是谷歌于2017年提出的端到端语音合成系统,该模型可接收字符的输入,输出相应的原始频谱图,然后将其提供给 Griffin-Lim 重建算法直接生成语音 ABSTARCT ? 在这篇论文里,我们提出了Tacotron,一种端到端的生成式文本转语音模型,可以直接从字符合成语音。在<文本,声音>配对数据集上,该模型可以完全从随机初始化从头开始训练。 我们强调选择Griffin-Lim是为了简单,尽管它已经生成了很好的结果,我们也在开发一个快速的高品质的可训练的声谱-波形转换器 4 MODEL DETAILS ? 表1列出了超参数和模型架构。 对所有的试验我们使用24k赫兹采样率 在论文的MOS评分中使用r=2(解码器输出层的缩小因子),更大的r也运行的很好(例如r=5)。 图4(a)和图4(b)展示了使用后处理网络的好处。

    1.1K20发布于 2020-08-10
  • 来自专栏mathor

    GoogLeNet论文阅读

    论文下载 在2014年的ImageNet图像识别挑战赛中,一个名叫GoogLeNet的网络结构大放异彩。它虽然在名字上向LeNet致敬,但在网络结构上已经很难看到LeNet的影子。 作者提到这种方法的理论基础来自于Arora et al的论文Provable bounds for learning some deep representations image.png 遗憾的是 为此,论文借鉴NiN结构,采用1×1卷积核来进行降维 例如,上一层的输出为100×100×128,经过具有256个输出的5×5卷积层之后(stride=1,padding=2),输出维度为100×100 这些分类器以小卷积网络的形式放在Inception(4a)和Inception(4b)的输出上。 在训练过程中,损失会根据折扣后的权重(折扣权重为0.3)叠加到总损失中 辅助分类器的具体细节: avg-pooling size=5×5,stride=3,(4a)的输出为4×4×512,(4d)的输出为

    1.2K20发布于 2020-02-12
  • 来自专栏Yunfeng's Simple Blog

    VitPose 论文阅读

    论文不长,这周末读了一遍,感觉值得借鉴的地方挺多,这里我用自己的语言描述论文的细节,同时把自己的一些疑惑和思考写下来,欢迎讨论交流。 继续阅读前的几个疑问 读完摘要和Introduction部分,我决定继续精读这篇论文,因此在进一步阅读前,为了提升对论文的理解程度,我想出了下面的问题,希望在读完剩余部分的时候,这些问题都能得到回答: 4. 实现细节 4.1 整体结构 网络结构设计比较简单,整体为采用ViT backbone + decoder的形式。 backbone根据计算量大小,选用了Vit-B, ViT-L,ViT-H[3]以及ViTAE-G[4]。 双线性差值上采样4倍,然后是ReLU+3x3conv,不过论文中公式与描述不符,ReLU在双线性上采样之前,需要看代码实现具体是哪一种。

    39920编辑于 2023-10-23
领券