文章/答案/技术大牛

发布

社区首页 >问答首页 >处理用于图像分类的大数据集

问处理用于图像分类的大数据集
EN

Stack Overflow用户

提问于 2018-04-21 13:38:00

回答 1查看 75关注 0票数 1

我使用keras进行图像分类，以下是我的代码：

train_generator = datagen.flow_from_directory(
        train_data_dir,
        target_size=(img_width, img_height),
        batch_size=batch_size,
        class_mode="categorical")

validation_generator = datagen.flow_from_directory(
        validation_data_dir,
        target_size=(img_width, img_height),
        batch_size=batch_size,
        class_mode="categorical")

Found 70000 images belonging to 15 classes.
Found 6000 images belonging to 15 classes.

然后我使用这些数据来适应我的模型，下面是我的代码：

model.fit_generator(
        train_generator,
        steps_per_epoch=train_samples // batch_size,
        epochs=epochs,
        validation_data=validation_generator,
        validation_steps=validation_samples// batch_size,)

我使用了不同的批量大小，但结果是不够的，我的模型训练太慢了，训练需要几个小时，有时还会崩溃，当我们有大量的数据集时，有人能帮助我们训练模型吗，如何有效地做到这一点？

型号代码：

# a simple stack of 3 convolution layers with a ReLU activation and followed by max-pooling layers.
model = Sequential()
model.add(Convolution2D(32, (3, 3), input_shape=(img_width, img_height,3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(32, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Convolution2D(64, (3, 3)))
model.add(Activation('relu'))
model.add(MaxPooling2D(pool_size=(2, 2)))

model.add(Flatten())
model.add(Dense(64))
model.add(Activation('relu'))
model.add(Dropout(0.5))
model.add(Dense(15))
model.add(Activation('sigmoid'))

python

machine-learning

keras

large-data

回答 1

Stack Overflow用户

发布于 2018-04-21 13:48:41

嗯，提高性能的一种解决方案是使用GPU。

如果你运行在TensorFlow后端，如果检测到任何可用的GPU，你的代码将自动运行在GPU上。

pip install tensorflow-gpu

此外，您还可以选择使用multi_gpu_model类的data parallelism。

from keras.utils import multi_gpu_model

# Replicates `model` on 8 GPUs.
# This assumes that your machine has 8 available GPUs.
parallel_model = multi_gpu_model(model, gpus=8)
parallel_model.compile(loss='categorical_crossentropy',
                       optimizer='rmsprop')

# This `fit` call will be distributed on 8 GPUs.
# Since the batch size is 256, each GPU will process 32 samples.
parallel_model.fit(x, y, epochs=20, batch_size=256)

我看到您的输出层使用sigmoid作为激活函数。这是错误的。您必须使用softmax，因为sigmoid用于binary分类或two-class模型。

Softmax函数计算事件在n不同类上的概率分布。(在你的例子中是15)。

一般来说，此函数将计算每个目标类在所有可能的目标类上的概率。稍后，计算的概率将有助于确定给定输入的目标类。

使用Softmax的主要优点是输出概率范围。范围从0到1，所有概率的总和将等于1。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/49952712

复制

相似问题

问处理用于图像分类的大数据集
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理用于图像分类的大数据集EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问处理用于图像分类的大数据集
EN