首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >语义分割中骰子丢失中输出掩码与原始掩码的维数不匹配

语义分割中骰子丢失中输出掩码与原始掩码的维数不匹配
EN

Stack Overflow用户
提问于 2021-07-14 11:31:11
回答 2查看 324关注 0票数 0

我正在做多类语义分割(4个类+背景)。我的掩码维数是(256,256,3),输出掩码维数是(256,256,5)。我上了5节课,因为这是上课的次数。

骰子丢失函数

代码语言:javascript
复制
inputs = inputs.view(-1)
targets = targets.view(-1)
        
intersection = (inputs * targets).sum() ---> error                       
dice = (2.*intersection + smooth)/(inputs.sum() + targets.sum() + smooth)  
        
return 1 - dice

我该怎么做才能使这两个维度保持一致?掩码是从一个TIF文件中提取的。

我已经把我的面具图片附在下面。

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2021-07-14 15:13:22

我假设您正在显示的目标分段是RGB编码的映射。您希望将这个3通道图像转换为一个1通道标签地图.

假设seg是您的地面真值分割地图,形状为(b, 3, h, w)。标签到颜色映射可以任意设置为:

代码语言:javascript
复制
colors = torch.FloatTensor([[0, 0, 0],
                            [1, 1, 0],
                            [1, 0, 0],
                            [0, 1, 0],
                            [0, 0, 1]])

对于每种颜色,构造一个匹配像素的掩码,并在这些像素位置以新的张量分配相应的标签:

代码语言:javascript
复制
b, _, h, w = seg.shape
gt = torch.zeros(b,1,h,w)
seg_perm = seg.permute(0,2,3,1)

for label, color in enumerate(colors):
    mask = torch.all(seg_perm == color, dim=-1).unsqueeze(1)
    gt[mask] = label

例如,以以下分段映射为例:

代码语言:javascript
复制
>>> seg = tensor([[[[1., 1., 0., 0.],
                    [1., 0., 0., 0.]],

                   [[0., 1., 0., 0.],
                    [0., 1., 0., 1.]],

                   [[0., 0., 0., 0.],
                    [0., 0., 1., 0.]]]])

为了可视化目的:

代码语言:javascript
复制
>>> T.ToPILImage()(seg[0].repeat_interleave(100,2).repeat_interleave(100,1))

由此产生的标签地图将:

代码语言:javascript
复制
>>> gt
tensor([[[[2., 1., 0., 0.],
          [2., 3., 4., 3.]]]])
票数 0
EN

Stack Overflow用户

发布于 2021-07-14 13:14:01

我相信你必须先对目标面具进行一次热编码。我建议您先阅读这篇好文章,以便更好地理解语义分段https://www.jeremyjordan.me/semantic-segmentation/的所有微妙之处。

确保预测和目标形状匹配,不需要用view(-1)平放张量。

此外,作为个人的建议,首选的渠道首先为火炬张量。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/68377244

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档