首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Unet输入和输出

Unet输入和输出
EN

Stack Overflow用户
提问于 2019-09-22 21:22:36
回答 1查看 2.9K关注 0票数 1

我是计算机视觉的新手,正在尝试训练一个模型,该模型采用正常的3通道图像(RGB)并给出输出,这只是一个简单的二进制掩模。据我所知,名为Unet的架构是这样做的。例如,TernausnetV2在kaggle竞赛中表现得非常好。在这种模型架构中,我认为的输入和输出是正确的吗?

我有3通道图像(RGB)和二进制蒙版图像(大小与3通道图像相同,所有值都是1或0)。感谢你在前文中的帮助。

EN

回答 1

Stack Overflow用户

发布于 2019-09-22 23:52:32

您正在讨论的计算机视觉任务称为语义分割,U-Net模型是用于类似问题的基本自动编码器架构。现在有许多模型是从U-Net派生出来的(Ternausnet是其中之一),可以在论文中找到与SOTA比较link的一些比较。U-Net架构通常使用3通道输入尺寸用于RGB图像处理和1通道输出尺寸-模型通常使用核心尺寸为1x1的sigmoid激活卷积层作为最后一层,它基本上遍历整个图像,并在每个像素上计算sigmoid函数-维基百科link,它为每个像素分配一个介于0和1之间的值(取决于您可以使用的数据量,也可以使用tanh - -1/1)。更多信息可以在这个令人敬畏的教程中找到,来自《迈向数据科学link

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/58049625

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档