搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏AI科技评论
业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术
AI 科技评论按：图像描述生成技术是一个计算机视觉与 NLP 交叉研究领域的研究领域，在如今的浪潮下更显火热。今年8月，腾讯 AI Lab 凭借自主研发的强化学习算法在微软 MS COCO 相关的 I
1.3K60发布于 2018-03-14
来自专栏机器之心
业界 | 腾讯AI Lab获得计算机视觉权威赛事MSCOCO Captions冠军
机器之心发布机器之心编辑部 2017 年 8 月，在图像描述生成技术这一热门的计算机视觉与 NLP 交叉研究领域，腾讯 AI Lab 凭借自主研发的强化学习算法在微软 MS COCO 相关的 Ima
711120发布于 2018-05-10
来自专栏AI研习社
上交大卢策吾团队开源 AlphaPose，在 MSCOCO 上稳超 Mask-RCNN 8 个百分点
据卢策吾团队介绍， AlphaPose 在姿态估计（Pose Estimation）标准测试集 MSCOCO 上比 Mask-RCNN 相对提高 8.2%，比 OpenPose（CMU）相对提高 17%
1.6K150发布于 2018-03-16
来自专栏CreateAMind
Caption Generation 比google的方法更快(6 hours v.s. several weeks)
https://github.com/kimiyoung/review_net Review Network for Caption Generation Image Captioning on MSCOCO You can use the code in this repo to genearte a MSCOCO evaluation server submission with CIDEr=0.96+ Below is a comparison with other state-of-the-art systems (with according published papers) on the MSCOCO
43650发布于 2018-07-25
来自专栏我爱计算机视觉
OpenCV4.0 Mask RCNN 实例分割示例 C++/Python实现
Detection Model Zone中现在有四个使用不同骨干网（InceptionV2, ResNet50, ResNet101 和 Inception-ResnetV2）的Mask RCNN模型，这些模型都是在MSCOCO mscoco_labels.names包含MSCOCO所有标注对象的类名称。 colors.txt是在图像上标出某实例时其所属类显示的颜色值。
1.7K20发布于 2019-12-27
来自专栏机器学习AI算法工程
深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总
COCO 下载地址 http://mscoco.org/ COCO(Common Objects in Context)是一个新的图像识别、分割、和字幕数据集，它有如下特点： 1）Object image 8）Keypoints on 100,000 people COCO 2016 Detection Challenge(2016.6.1-2016.9.9) http://mscoco.org /dataset/#detections-challenge2016 和COCO 2016 Keypoint Challenge(2016.6.1-2016.9.9) http://mscoco.org
1.7K51发布于 2018-03-15
来自专栏AI研习社
上交大卢策吾团队 AlphaPose 更新，顶级性能的实时姿态估计
据卢策吾团队介绍， AlphaPose 在姿态估计（Pose Estimation）标准测试集 MSCOCO 上达到 72.3 mAP，是首个超过 70 mAP 的开源系统，比 Mask-RCNN 相对提高系统采用PyTorch 框架，在姿态估计的标准测试集MSCOCO上，达到 71mAP 的精度，同时，速度达到 20FPS（平均每张图像中有 4. 6 人）。代码支持 Linux 和 Windows。各开源框架在MSCOCO上的性能，运行在 1080Ti 单卡上据卢策吾团队介绍，新版 AlphaPose 系统，架设在 PyTorch 框架上，得益于 PyTorch 的灵活性，新系统对用户更加友好，
2.1K51发布于 2018-09-25
来自专栏机器之心
学界 | 邢波团队提出contrast-GAN：实现生成式语义处理
在 ImageNet 和 MSCOCO 数据集上进行的若干个语义处理任务的相关实验说明了我们的对比式 GAN 比其它条件式 GAN 的性能表现更加可观。图 4：在给定目标蒙版的情况下，MSCOCO 数据集上蒙版对比型 GAN 和 CycleGAN 对马→斑马和斑马→马转译的结果对比。它展示了整合目标物体蒙版来脱离图像背景和目标语义的效果。图 6：在给定目标蒙版的情况下，在 MSCOCO 数据集上，蒙版对比型 GAN 和 CycleGAN 对狗→猫和猫→狗转译的结果对比。 ? 表 3：MSCOCO 数据集上 8 个蒙版条件式语义处理任务的 AMT 感知测试的结果对比。 ? 图 7：在 MSCOCO 数据集上用蒙版对比式 GAN 对大量目标物体语义的处理结果实例。
1.2K40发布于 2018-05-09
来自专栏程序媛驿站
图像描述（ImageCaption）任务简析
例子这是小媛翻出的本科毕设的陈年旧图经过大批量数据（如MSCOCO数据集）的训练，一个训练良好的模型可以做到如上图一般准确的图片描述。 CVPR（IEEE Conference on Computer Vision and Pattern Recognition，IEEE国际计算机视觉与模式识别会议）上关于描述生成的论文皆发表于近六年左右，MSCOCO MSCOCO Microsoft COCO数据集，已成为图像字幕的标准测试平台官网http://cocodataset.org/ 官网http://cocodataset.org/#download MSCOCO除了提供了数据集之外，也提供了评测脚本：官网http://cocodataset.org/#captions-eval 下提供的代码地址：https://github.com/tylin/ coco-caption 其中带有coco专用于caption的评估代码 MSCOCO除了提供了caption的数据集之外，也提供了： MS COCO数据集目标检测(Detection) MS COCO
3.8K20编辑于 2022-04-11
来自专栏AI研习社
用 CNN 分 100,000 类图像
Code]：layumi/Image-Text-Embedding（http://suo.im/uGOPg ） Motivation 在这篇文章中我们尝试了用 CNN 分类 113,287 类图像 (MSCOCO Flickr30k：31,783 类 (1 图像 + 5 描述), 其中训练图像为 29,783 类 MSCOCO：123,287 类 (1 图像 + ~5 描述), 其中训练图像为 113,287 CUHK-PEDES 用了 ID annotation，而 MSCOCO 和 Flickr30k 我们是没有用的。） 3. 如何结合文本和图像一起训练？其实，文本和图像很容易各学各的，来做分类。在 MSCOCO 采用 instance loss 的结果更好一些。我们认为聚类其实没有解决，黑狗 / 灰狗 / 两条狗都是狗，可能会忽略图像细节的问题。 7. 比结果的时候比较难。
70710发布于 2018-07-26
来自专栏我爱计算机视觉
RefineDetLite：腾讯提出轻量级高精度目标检测网络
Lightweight One-stage Object Detection Framework for CPU-only Devices，提出一种面向CPU设备的轻量级一阶段目标检测网络RefineDetLite，其在MSCOCO 下表为作者在MSCOCO test-dev 数据集上的实验结果： ? 其中有很多值得思考的地方： 1.
1.2K10发布于 2019-12-27
来自专栏机器之心
无需预训练分类器，清华和旷视提出专用于目标检测的骨干网络DetNet
在 MSCOCO 数据集的目标检测和实例分割任务上，DetNet 都取得了当前最佳的结果。目标检测是计算机视觉中最基础的任务之一。作者利用基于低复杂度的 DetNet59 骨干网路，在 MSCOCO 目标检测和实例分割追踪任务上取得了当前最佳结果。 ? 图 1：FPN（特征金字塔网络）中使用的不同骨干网络的对比。表 7：在 MSCOCO 数据集上，本文的方法与其他顶尖方法目标检测结果的对比，基于简单、有效的骨干 DetNet-59，该模型超越了先前所有的顶尖方法。表 8：在 MSCOCO 数据集上，本文的方法与其他顶尖方法做实例分割的结果对比。得益于 DetNet-59，在实例分割任务上 DetNet 取得了新纪录。 ? 基于我们提出的 DetNet（4.8G FLOPs）骨干，在 MSCOCO 数据集基准上取得了目标检测和示例分割的当前最佳结果。复现代码将在近期发布。本文为机器之心编译，转载请联系本公众号获得授权。
1.5K90发布于 2018-05-08
来自专栏机器之心
学界 | UC伯克利提出新型视觉描述系统，物体描述无需大量样本
但是，当前的视觉描述数据集，如 MSCOCO，不包含对所有物体的描述。与之相反的是，近期使用卷积神经网络（CNN）的目标识别工作能够识别出数百种类别的物体。给定一个包含成对图像和描述（图像-句子对数据，如 MSCOCO）的数据集以及带有物体标签但没有描述的图像（非成对图像数据，如 ImageNet），我们希望能够学习如何描述在图像-句子对数据中未出现的物体在我们之前的工作「深度合成字幕（Deep Compositional Captioning，DCC）」[1] 中，我们首次在 MSCOCO 成对图像-字幕数据集上训练字幕模型。然后，为了描述新物体，我们对于每一个新物体（如霍加狓鹿）都使用词嵌入方法来确定一个在 MSCOCO 数据集所有物体中与新物体最相似的物体（在此案例中该物体是斑马）。
1.1K40发布于 2018-05-08
来自专栏AI科技评论
微软新作，ImageBERT虽好，千万级数据集才是亮点
在这个数据集的加持下，ImageBERT 模型在MSCOCO和Flickr30k的图像-文本检索任务上获得不错的结果。利用ImageBERT模型和LAIT数据集进行预训练，在MSCOCO和Flicker30k上进行文本到图像、图像到文本的检索任务上获得了不错的结果。经过两个阶段的预训练后，在MSCoCO和Flickr30k数据集上对模型进行了微调，在微调过程中，输入序列的格式与预训练时的格式相同，但对象或单词上没有任何掩码。下面是在 MSCOCO 和Flickr30k 数据集的不同设置下，对ImageBERT模型和图像检测和文本检索任务上其他最先进的方法进行的比较。在没有微调的情况下，作者在Flickr30k和MSCOCO测试集上对预训练模型进行了评估，如下：零样本结果如表 1 所示，我们可以发现，ImageBERT预训练模型在MSCOCO 获得了新的最佳结果，
1.6K10发布于 2020-02-21
来自专栏AIGC 先锋科技
多语言BERT与图像编码器：EfficientNet0和微型Swin Transformer在视觉检索中的应用！
检索过程首先加载预计算的图像特征表示，这些是来自MSCOCO数据集的视觉内容的张量表示。数据集： MSCOCO, Flickr8k, Flickr30k。还使用机器翻译和增强技术生成了模拟低资源条件的合成数据集。 EfficientNet0 + Multilingual BERT：在 Flickr30k 上评估基础性能，并将其扩展到 MSCOCO 和 Flickr8k。 ViT + Multilingual BERT：在 Flickr8k 上测试，通用到 Flickr30k 和 MSCOCO。数据集大小和质量：通过在不同大小和条件的数据集（如MSCOCO和Flickr30k，Flickr8k等）上训练和测试模型，评估了对数据质量和数据集大小的敏感性。
57210编辑于 2024-09-10
来自专栏人工智能
在图像中标注新的对象
然而，目前的视觉描述数据集，如MSCOCO，不包含关于所有对象的描述。相比之下，最近通过卷积神经网络（CNN）进行物体识别的作品可以识别数百种物体。给定由图像和描述对（成对图像 - 句子数据，例如MSCOCO）组成的数据集以及带有对象标签但没有描述的图像（不成对的图像数据，例如ImageNet），我们希望学习如何描述未配对的物体图像 - 句子数据。在我们以前的作品“深度合成字幕（DCC）”[1]中，我们首先在MSCOCO配对图像描述数据集上训练描述模型。然后，为了描述新的对象，对于每个新颖的对象（例如okapi），我们使用词嵌入来识别MSCOCO数据集（在这种情况下是斑马）中的对象之间最相似的对象。
2.2K110发布于 2018-01-26
来自专栏ATYUN订阅号
伯克利人工智能研究项目：为图像自动添加准确的说明
但是，当前的视觉描述数据集，比如：MSCOCO，不包含对所有对象的描述。相比之下，最近通过卷积神经网络(CNNs)的对象识别工作可以识别出数百种对象类型。给定一个数据集，包括一对图像和描述(配对的图像-句子数据，例如：MSCOCO)，以及带有对象标签的图像，但是没有描述(没有配对的图像数据，如：ImageNet)，我们希望学习如何描述在配对的图像-句子数据中看不见的对象在我们之前的工作中，称为“深度组合说明(DCC)”，我们首先在MSCOCO配对图像说明数据集上训练一个说明模型。然后，为了描述新的对象，对于每一个新的对象，比如，“霍加狓”（长颈鹿科的一种），我们使用词嵌入来识别在与MSCOCO数据集的对象中最相似的对象(在这个例子中是斑马)。
1.7K50发布于 2018-03-02
来自专栏OpenCV与AI深度学习
TensorFlow2.x目标检测API测试代码使用演示
将mscoco_label_map.pbtxt拷贝到指定文件夹，这里放到model文件夹内与saved_model文件夹同目录三、使用测试图像，加载模型测试，如果缺cv2模块则pip install /model/mscoco_label_map.pbtxt' path_saved_model = model_dir + "/saved_model" # Load saved model and
2.2K10发布于 2020-11-09
来自专栏专知
【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标
We evaluate our method on two image-to-English benchmark datasets: MSCOCO and Flickr30K. We extensively evaluate the proposed approach on MSCOCO and show that our approach can achieve the state-of-the-art Applying this approach to image captioning, our results on the MSCOCO test server establish a new state-of-the-art
1.1K70发布于 2018-04-08
来自专栏AIGC 先锋科技
上海交大 SDPose-T | 以4.4M参数和 1.8 GFLOPs 获得了69.7%的mAP SOTA 性能！
具体来说，在MSCOCO验证数据集上，SDPose-T以4.4M参数和1.8 GFLOPs获得了69.7%的mAP。此外，SDPose-S-V2在MSCOCO验证数据集上以6.2M参数和4.7 GFLOPs获得了73.5%的mAP，在主要的微型神经网络方法中达到了新的最先进水平。 Implementation Details 4.1.1 Datasets 作者在两个数据集上进行了实验，分别是MSCOCO数据集和Crowdpose数据集。 MSCOCO包含超过20万张人体图像，每个人体有17个预标注的关键点。作者使用包含57K张图像的MSCOCO train2017来训练SDPose并比较方法。同样，如表3所示，在MSCOCO测试开发集上，SDPose-Reg相比于DistilPose-S实现了1.1 \% 的AP提升。在Crowdpose数据集上的评估。
67310编辑于 2024-07-08

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

业界 | 腾讯AI Lab获得计算机视觉权威赛事MSCOCO Captions冠军

上交大卢策吾团队开源 AlphaPose，在 MSCOCO 上稳超 Mask-RCNN 8 个百分点

Caption Generation 比google的方法更快(6 hours v.s. several weeks)

OpenCV4.0 Mask RCNN 实例分割示例 C++/Python实现

深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

上交大卢策吾团队 AlphaPose 更新，顶级性能的实时姿态估计

学界 | 邢波团队提出contrast-GAN：实现生成式语义处理

图像描述（ImageCaption）任务简析

用 CNN 分 100,000 类图像

RefineDetLite：腾讯提出轻量级高精度目标检测网络

无需预训练分类器，清华和旷视提出专用于目标检测的骨干网络DetNet

学界 | UC伯克利提出新型视觉描述系统，物体描述无需大量样本

微软新作，ImageBERT虽好，千万级数据集才是亮点

多语言BERT与图像编码器：EfficientNet0和微型Swin Transformer在视觉检索中的应用！

在图像中标注新的对象

伯克利人工智能研究项目：为图像自动添加准确的说明

TensorFlow2.x目标检测API测试代码使用演示

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

上海交大 SDPose-T | 以4.4M参数和 1.8 GFLOPs 获得了69.7%的mAP SOTA 性能！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

业界 | 腾讯 AI Lab 斩获 MSCOCO Captions 冠军，领衔图像描述生成技术

业界 | 腾讯AI Lab获得计算机视觉权威赛事MSCOCO Captions冠军

上交大卢策吾团队开源 AlphaPose， 在 MSCOCO 上稳超 Mask-RCNN 8 个百分点

Caption Generation 比google的方法更快(6 hours v.s. several weeks)

OpenCV4.0 Mask RCNN 实例分割示例 C++/Python实现

深度学习、机器学习图像/人脸/字幕/自动驾驶数据集(Dataset)汇总

上交大卢策吾团队 AlphaPose 更新，顶级性能的实时姿态估计

学界 | 邢波团队提出contrast-GAN：实现生成式语义处理

图像描述（ImageCaption）任务简析

用 CNN 分 100,000 类图像

RefineDetLite：腾讯提出轻量级高精度目标检测网络

无需预训练分类器，清华和旷视提出专用于目标检测的骨干网络DetNet

学界 | UC伯克利提出新型视觉描述系统，物体描述无需大量样本

微软新作，ImageBERT虽好，千万级数据集才是亮点

多语言BERT与图像编码器：EfficientNet0和微型Swin Transformer在视觉检索中的应用 ！

在图像中标注新的对象

伯克利人工智能研究项目：为图像自动添加准确的说明

TensorFlow2.x目标检测API测试代码使用演示

【论文推荐】最新6篇图像描述生成相关论文—语言为枢纽、细粒度、生成器、注意力机制、策略梯度优化、判别性目标

上海交大 SDPose-T | 以4.4M参数和 1.8 GFLOPs 获得了69.7%的mAP SOTA 性能 ！

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

上交大卢策吾团队开源 AlphaPose，在 MSCOCO 上稳超 Mask-RCNN 8 个百分点

多语言BERT与图像编码器：EfficientNet0和微型Swin Transformer在视觉检索中的应用！

上海交大 SDPose-T | 以4.4M参数和 1.8 GFLOPs 获得了69.7%的mAP SOTA 性能！