我正在研究我的第一个GANs模型,我使用MNIST数据集跟踪Tensorflow官方文档。我运行得很顺利。我试图用我自己的数据集代替MNIST,我已经准备好它与MNSIT: 28 * 28匹配,它可以工作。
但是,我的数据集比MNIST要复杂得多,因此我试图使数据集的图像大小更大: 512 * 512,但是我不断地获取与输入和输出形状相关的错误。我不知道所有这些输入和输出形状的鉴别器和生成器之间的关系。假设我想将我的数据集从28 * 28 (MNSIT大小)更改为y*y (自定义大小),哪些输入/输出形状是我需要在这些层中调优的?为什么?有人能澄清这个流程吗?
这是我的代码,在该代码中,我重新构造数据集以匹配MNIST大小:
train_images = train_images.reshape(train_images.shape[0], 28, 28, 1).astype('float32')在这里,我把它正常化:
train_images = (train_images - 127.5) / 127.5 # Normalize the images to [-1, 1]这是发电机模型,最后一层的输出形状表示了28 * 28:
def make_generator_model():
model = tf.keras.Sequential()
model.add(layers.Dense(7*7*256, use_bias=False, input_shape=(100,)))
model.add(layers.BatchNormalization())
model.add(layers.LeakyReLU())
model.add(layers.Reshape((7, 7, 256)))
assert model.output_shape == (None, 7, 7, 256) # Note: None is the batch size
model.add(layers.Conv2DTranspose(128, (5, 5), strides=(1, 1), padding='same', use_bias=False))
assert model.output_shape == (None, 7, 7, 128)
model.add(layers.BatchNormalization())
model.add(layers.LeakyReLU())
model.add(layers.Conv2DTranspose(64, (5, 5), strides=(2, 2), padding='same', use_bias=False))
assert model.output_shape == (None, 14, 14, 64)
model.add(layers.BatchNormalization())
model.add(layers.LeakyReLU())
model.add(layers.Conv2DTranspose(1, (5, 5), strides=(2, 2), padding='same', use_bias=False, activation='tanh'))
assert model.output_shape == (None, 28, 28, 1)
return model这是判别器模型,其中第一层的输入表示大约28 * 28:
def make_discriminator_model():
model = tf.keras.Sequential()
model.add(layers.Conv2D(64, (5, 5), strides=(2, 2), padding='same',
input_shape=[28, 28, 1]))
model.add(layers.LeakyReLU())
model.add(layers.Dropout(0.3))
model.add(layers.Conv2D(128, (5, 5), strides=(2, 2), padding='same'))
model.add(layers.LeakyReLU())
model.add(layers.Dropout(0.3))
model.add(layers.Flatten())
model.add(layers.Dense(1))
return model发布于 2019-06-18 03:51:39
下面是计算Conv2DTranspose输出形状的公式,您可以认为它是一种可学习的重采样方法:
# Padding==Same:
H = H1 * stride
# Padding==Valid
H = (H1-1) * stride + HF其中,H = output size,H1 = input size,HF = height of filter。来自"how-to-calculate-the-output-shape-of-conv2d-transpose"
因此,Conv2DTranspose的输入和输出形状应该是:
(None, h1, h2, channels)
||
Conv2DTranspose(num_filters, (kernel_h1, kernel_h2), strides=(s1, s2), padding='same')
||
(None, h1*s1, h2*s2, num_filters)其中没有一个是batch_size
要使代码运行,您可以将第一个密集层的输出形状更改为(8*8*256),并重复Conv2DTranspose->BatchNormalization->LeakyReLU块,直到它变成灰度级的(512*512)或RGB的(512*512*3)为止。
对于鉴别器,唯一必要的更改是第一层中的input_shape。因为Conv2D和padding='same'没有改变张量的形状。
,但是,上面的更改不能保证您的模型有一个好的结果。您确实需要研究一下您的任务,以决定您的模型架构应该是怎样的。
https://stackoverflow.com/questions/56640990
复制相似问题