AI 科技评论按:图像描述生成技术是一个计算机视觉与 NLP 交叉研究领域的研究领域,在如今的浪潮下更显火热。今年8月,腾讯 AI Lab 凭借自主研发的强化学习算法在微软 MS COCO 相关的 I
机器之心发布 机器之心编辑部 2017 年 8 月,在图像描述生成技术这一热门的计算机视觉与 NLP 交叉研究领域,腾讯 AI Lab 凭借自主研发的强化学习算法在微软 MS COCO 相关的 Ima
https://github.com/kimiyoung/review_net Review Network for Caption Generation Image Captioning on MSCOCO You can use the code in this repo to genearte a MSCOCO evaluation server submission with CIDEr=0.96+ Below is a comparison with other state-of-the-art systems (with according published papers) on the MSCOCO
据卢策吾团队介绍, AlphaPose 在姿态估计(Pose Estimation)标准测试集 MSCOCO 上比 Mask-RCNN 相对提高 8.2%,比 OpenPose(CMU)相对提高 17%
Detection Model Zone中现在有四个使用不同骨干网(InceptionV2, ResNet50, ResNet101 和 Inception-ResnetV2)的Mask RCNN模型,这些模型都是在MSCOCO mscoco_labels.names包含MSCOCO所有标注对象的类名称。 colors.txt是在图像上标出某实例时其所属类显示的颜色值。
COCO 下载地址 http://mscoco.org/ COCO(Common Objects in Context)是一个新的图像识别、分割、和字幕数据集,它有如下特点: 1)Object image 8)Keypoints on 100,000 people COCO 2016 Detection Challenge(2016.6.1-2016.9.9) http://mscoco.org /dataset/#detections-challenge2016 和COCO 2016 Keypoint Challenge(2016.6.1-2016.9.9) http://mscoco.org
据卢策吾团队介绍, AlphaPose 在姿态估计(Pose Estimation)标准测试集 MSCOCO 上达到 72.3 mAP,是首个超过 70 mAP 的开源系统,比 Mask-RCNN 相对提高 系统采用PyTorch 框架,在姿态估计的标准测试集MSCOCO上,达到 71mAP 的精度,同时,速度达到 20FPS(平均每张图像中有 4. 6 人)。代码支持 Linux 和 Windows。 各开源框架在MSCOCO上的性能,运行在 1080Ti 单卡上 据卢策吾团队介绍,新版 AlphaPose 系统,架设在 PyTorch 框架上,得益于 PyTorch 的灵活性,新系统对用户更加友好,
在 ImageNet 和 MSCOCO 数据集上进行的若干个语义处理任务的相关实验说明了我们的对比式 GAN 比其它条件式 GAN 的性能表现更加可观。 图 4:在给定目标蒙版的情况下,MSCOCO 数据集上蒙版对比型 GAN 和 CycleGAN 对马→斑马和斑马→马转译的结果对比。它展示了整合目标物体蒙版来脱离图像背景和目标语义的效果。 图 6:在给定目标蒙版的情况下,在 MSCOCO 数据集上,蒙版对比型 GAN 和 CycleGAN 对狗→猫和猫→狗转译的结果对比。 ? 表 3:MSCOCO 数据集上 8 个蒙版条件式语义处理任务的 AMT 感知测试的结果对比。 ? 图 7:在 MSCOCO 数据集上用蒙版对比式 GAN 对大量目标物体语义的处理结果实例。
例子 这是小媛翻出的本科毕设的陈年旧图 经过大批量数据(如MSCOCO数据集)的训练,一个训练良好的模型可以做到如上图一般准确的图片描述。 CVPR(IEEE Conference on Computer Vision and Pattern Recognition,IEEE国际计算机视觉与模式识别会议)上关于描述生成的论文皆发表于近六年左右,MSCOCO MSCOCO Microsoft COCO数据集,已成为图像字幕的标准测试平台 官网http://cocodataset.org/ 官网http://cocodataset.org/#download MSCOCO除了提供了数据集之外,也提供了评测脚本: 官网http://cocodataset.org/#captions-eval 下提供的代码地址:https://github.com/tylin/ coco-caption 其中带有coco专用于caption的评估代码 MSCOCO除了提供了caption的数据集之外,也提供了: MS COCO数据集目标检测(Detection) MS COCO
Code]:layumi/Image-Text-Embedding(http://suo.im/uGOPg ) Motivation 在这篇文章中我们尝试了 用 CNN 分类 113,287 类图像 (MSCOCO Flickr30k:31,783 类 (1 图像 + 5 描述), 其中训练图像为 29,783 类 MSCOCO:123,287 类 (1 图像 + ~5 描述), 其中训练图像为 113,287 CUHK-PEDES 用了 ID annotation,而 MSCOCO 和 Flickr30k 我们是没有用的。) 3. 如何结合 文本和图像一起训练? 其实,文本和图像很容易各学各的,来做分类。 在 MSCOCO 采用 instance loss 的结果更好一些。我们认为聚类其实没有解决,黑狗 / 灰狗 / 两条狗都是 狗,可能会忽略图像细节的问题。 7. 比结果的时候比较难。
Lightweight One-stage Object Detection Framework for CPU-only Devices,提出一种面向CPU设备的轻量级一阶段目标检测网络RefineDetLite,其在MSCOCO 下表为作者在MSCOCO test-dev 数据集上的实验结果: ? 其中有很多值得思考的地方: 1.
在 MSCOCO 数据集的目标检测和实例分割任务上,DetNet 都取得了当前最佳的结果。 目标检测是计算机视觉中最基础的任务之一。 作者利用基于低复杂度的 DetNet59 骨干网路,在 MSCOCO 目标检测和实例分割追踪任务上取得了当前最佳结果。 ? 图 1:FPN(特征金字塔网络)中使用的不同骨干网络的对比。 表 7:在 MSCOCO 数据集上,本文的方法与其他顶尖方法目标检测结果的对比,基于简单、有效的骨干 DetNet-59,该模型超越了先前所有的顶尖方法。 表 8:在 MSCOCO 数据集上,本文的方法与其他顶尖方法做实例分割的结果对比。得益于 DetNet-59,在实例分割任务上 DetNet 取得了新纪录。 ? 基于我们提出的 DetNet(4.8G FLOPs)骨干,在 MSCOCO 数据集基准上取得了目标检测和示例分割的当前最佳结果。复现代码将在近期发布。 本文为机器之心编译,转载请联系本公众号获得授权。
检索过程首先加载预计算的图像特征表示,这些是来自MSCOCO数据集的视觉内容的张量表示。 数据集: MSCOCO, Flickr8k, Flickr30k。还使用机器翻译和增强技术生成了模拟低资源条件的合成数据集。 EfficientNet0 + Multilingual BERT: 在 Flickr30k 上评估基础性能,并将其扩展到 MSCOCO 和 Flickr8k。 ViT + Multilingual BERT: 在 Flickr8k 上测试,通用到 Flickr30k 和 MSCOCO。 数据集大小和质量:通过在不同大小和条件的数据集(如MSCOCO和Flickr30k,Flickr8k等)上训练和测试模型,评估了对数据质量和数据集大小的敏感性。
但是,当前的视觉描述数据集,如 MSCOCO,不包含对所有物体的描述。与之相反的是,近期使用卷积神经网络(CNN)的目标识别工作能够识别出数百种类别的物体。 给定一个包含成对图像和描述(图像-句子对数据,如 MSCOCO)的数据集以及带有物体标签但没有描述的图像(非成对图像数据,如 ImageNet),我们希望能够学习如何描述在图像-句子对数据中未出现的物体 在我们之前的工作「深度合成字幕(Deep Compositional Captioning,DCC)」[1] 中,我们首次在 MSCOCO 成对图像-字幕数据集上训练字幕模型。 然后,为了描述新物体,我们对于每一个新物体(如霍加狓鹿)都使用词嵌入方法来确定一个在 MSCOCO 数据集所有物体中与新物体最相似的物体(在此案例中该物体是斑马)。
在这个数据集的加持下,ImageBERT 模型在MSCOCO和Flickr30k的图像-文本检索任务上获得不错的结果。 利用ImageBERT模型和LAIT数据集进行预训练,在MSCOCO和Flicker30k上进行文本到图像、图像到文本的检索任务上获得了不错的结果。 经过两个阶段的预训练后,在MSCoCO和Flickr30k数据集上对模型进行了微调,在微调过程中,输入序列的格式与预训练时的格式相同,但对象或单词上没有任何掩码。 下面是在 MSCOCO 和Flickr30k 数据集的不同设置下,对ImageBERT模型和图像检测和文本检索任务上其他最先进的方法进行的比较。 在没有微调的情况下,作者在Flickr30k和MSCOCO测试集上对预训练模型进行了评估,如下: 零样本结果如表 1 所示,我们可以发现,ImageBERT预训练模型在MSCOCO 获得了新的最佳结果,
但是,当前的视觉描述数据集,比如:MSCOCO,不包含对所有对象的描述。相比之下,最近通过卷积神经网络(CNNs)的对象识别工作可以识别出数百种对象类型。 给定一个数据集,包括一对图像和描述(配对的图像-句子数据,例如:MSCOCO),以及带有对象标签的图像,但是没有描述(没有配对的图像数据,如:ImageNet),我们希望学习如何描述在配对的图像-句子数据中看不见的对象 在我们之前的工作中,称为“深度组合说明(DCC)”,我们首先在MSCOCO配对图像说明数据集上训练一个说明模型。 然后,为了描述新的对象,对于每一个新的对象,比如,“霍加狓”(长颈鹿科的一种),我们使用词嵌入来识别在与MSCOCO数据集的对象中最相似的对象(在这个例子中是斑马)。
然而,目前的视觉描述数据集,如MSCOCO,不包含关于所有对象的描述。相比之下,最近通过卷积神经网络(CNN)进行物体识别的作品可以识别数百种物体。 给定由图像和描述对(成对图像 - 句子数据,例如MSCOCO)组成的数据集以及带有对象标签但没有描述的图像(不成对的图像数据,例如ImageNet),我们希望学习如何描述未配对的物体图像 - 句子数据。 在我们以前的作品“深度合成字幕(DCC)”[1]中,我们首先在MSCOCO配对图像描述数据集上训练描述模型。 然后,为了描述新的对象,对于每个新颖的对象(例如okapi),我们使用词嵌入来识别MSCOCO数据集(在这种情况下是斑马)中的对象之间最相似的对象。
将mscoco_label_map.pbtxt拷贝到指定文件夹,这里放到model文件夹内 与saved_model文件夹同目录 三、使用测试图像,加载模型测试,如果缺cv2模块则pip install /model/mscoco_label_map.pbtxt' path_saved_model = model_dir + "/saved_model" # Load saved model and
We evaluate our method on two image-to-English benchmark datasets: MSCOCO and Flickr30K. We extensively evaluate the proposed approach on MSCOCO and show that our approach can achieve the state-of-the-art Applying this approach to image captioning, our results on the MSCOCO test server establish a new state-of-the-art
具体来说,在MSCOCO验证数据集上,SDPose-T以4.4M参数和1.8 GFLOPs获得了69.7%的mAP。 此外,SDPose-S-V2在MSCOCO验证数据集上以6.2M参数和4.7 GFLOPs获得了73.5%的mAP,在主要的微型神经网络方法中达到了新的最先进水平。 Implementation Details 4.1.1 Datasets 作者在两个数据集上进行了实验,分别是MSCOCO数据集和Crowdpose数据集。 MSCOCO包含超过20万张人体图像,每个人体有17个预标注的关键点。作者使用包含57K张图像的MSCOCO train2017来训练SDPose并比较方法。 同样,如表3所示,在MSCOCO测试开发集上,SDPose-Reg相比于DistilPose-S实现了1.1 \% 的AP提升。 在Crowdpose数据集上的评估。