我正在做多类语义分割(4个类+背景)。我的掩码维数是(256,256,3),输出掩码维数是(256,256,5)。我上了5节课,因为这是上课的次数。
骰子丢失函数
inputs = inputs.view(-1)
targets = targets.view(-1)
intersection = (inputs * targets).sum() ---> error
dice = (2.*intersection + smooth)/(inputs.sum() + targets.sum() + smooth)
return 1 - dice我该怎么做才能使这两个维度保持一致?掩码是从一个TIF文件中提取的。
我已经把我的面具图片附在下面。

发布于 2021-07-14 15:13:22
我假设您正在显示的目标分段是RGB编码的映射。您希望将这个3通道图像转换为一个1通道标签地图.
假设seg是您的地面真值分割地图,形状为(b, 3, h, w)。标签到颜色映射可以任意设置为:
colors = torch.FloatTensor([[0, 0, 0],
[1, 1, 0],
[1, 0, 0],
[0, 1, 0],
[0, 0, 1]])对于每种颜色,构造一个匹配像素的掩码,并在这些像素位置以新的张量分配相应的标签:
b, _, h, w = seg.shape
gt = torch.zeros(b,1,h,w)
seg_perm = seg.permute(0,2,3,1)
for label, color in enumerate(colors):
mask = torch.all(seg_perm == color, dim=-1).unsqueeze(1)
gt[mask] = label例如,以以下分段映射为例:
>>> seg = tensor([[[[1., 1., 0., 0.],
[1., 0., 0., 0.]],
[[0., 1., 0., 0.],
[0., 1., 0., 1.]],
[[0., 0., 0., 0.],
[0., 0., 1., 0.]]]])为了可视化目的:
>>> T.ToPILImage()(seg[0].repeat_interleave(100,2).repeat_interleave(100,1))

由此产生的标签地图将:
>>> gt
tensor([[[[2., 1., 0., 0.],
[2., 3., 4., 3.]]]])发布于 2021-07-14 13:14:01
我相信你必须先对目标面具进行一次热编码。我建议您先阅读这篇好文章,以便更好地理解语义分段https://www.jeremyjordan.me/semantic-segmentation/的所有微妙之处。
确保预测和目标形状匹配,不需要用view(-1)平放张量。
此外,作为个人的建议,首选的渠道首先为火炬张量。
https://stackoverflow.com/questions/68377244
复制相似问题