我是计算机视觉的新手,正在尝试训练一个模型,该模型采用正常的3通道图像(RGB)并给出输出,这只是一个简单的二进制掩模。据我所知,名为Unet的架构是这样做的。例如,TernausnetV2在kaggle竞赛中表现得非常好。在这种模型架构中,我认为的输入和输出是正确的吗?
我有3通道图像(RGB)和二进制蒙版图像(大小与3通道图像相同,所有值都是1或0)。感谢你在前文中的帮助。
发布于 2019-09-22 23:52:32
您正在讨论的计算机视觉任务称为语义分割,U-Net模型是用于类似问题的基本自动编码器架构。现在有许多模型是从U-Net派生出来的(Ternausnet是其中之一),可以在论文中找到与SOTA比较link的一些比较。U-Net架构通常使用3通道输入尺寸用于RGB图像处理和1通道输出尺寸-模型通常使用核心尺寸为1x1的sigmoid激活卷积层作为最后一层,它基本上遍历整个图像,并在每个像素上计算sigmoid函数-维基百科link,它为每个像素分配一个介于0和1之间的值(取决于您可以使用的数据量,也可以使用tanh - -1/1)。更多信息可以在这个令人敬畏的教程中找到,来自《迈向数据科学link》
https://stackoverflow.com/questions/58049625
复制相似问题