问Unet输入和输出
EN

Stack Overflow用户

提问于 2019-09-22 21:22:36

回答 1查看 2.9K关注 0票数 1

我是计算机视觉的新手，正在尝试训练一个模型，该模型采用正常的3通道图像(RGB)并给出输出，这只是一个简单的二进制掩模。据我所知，名为Unet的架构是这样做的。例如，TernausnetV2在kaggle竞赛中表现得非常好。在这种模型架构中，我认为的输入和输出是正确的吗？

我有3通道图像(RGB)和二进制蒙版图像(大小与3通道图像相同，所有值都是1或0)。感谢你在前文中的帮助。

pytorch

python

computer-vision

回答 1

Stack Overflow用户

发布于 2019-09-22 23:52:32

您正在讨论的计算机视觉任务称为语义分割，U-Net模型是用于类似问题的基本自动编码器架构。现在有许多模型是从U-Net派生出来的(Ternausnet是其中之一)，可以在论文中找到与SOTA比较link的一些比较。U-Net架构通常使用3通道输入尺寸用于RGB图像处理和1通道输出尺寸-模型通常使用核心尺寸为1x1的sigmoid激活卷积层作为最后一层，它基本上遍历整个图像，并在每个像素上计算sigmoid函数-维基百科link，它为每个像素分配一个介于0和1之间的值(取决于您可以使用的数据量，也可以使用tanh - -1/1)。更多信息可以在这个令人敬畏的教程中找到，来自《迈向数据科学link》

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/58049625

复制

相似问题

问Unet输入和输出
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Unet输入和输出EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问Unet输入和输出
EN