文章/答案/技术大牛

发布

社区首页 >问答首页 >如何在处理谷歌协作平台上的自动编码器时使用大型训练集？

问如何在处理谷歌协作平台上的自动编码器时使用大型训练集？
EN

Stack Overflow用户

提问于 2020-12-11 22:25:58

回答 1查看 68关注 0票数 0

我正在google colab上训练一个自动编码器(keras)。然而，我有25000个输入图像和25000个输出图像。我试着这样做: 1-每次将大文件从google驱动器复制到colab (需要5-6个小时)。2-将集合转换为numpy数组，但当对图像进行归一化时，大小变得更大(例如从7 7GB到24 7GB)，然后我无法将其放入ram内存中。3-我无法压缩和解压我的数据。所以，如果有人知道如何在没有大文件(24 if )的情况下将其转换为numpy数组(并对其进行归一化)。

keras

deep-learning

google-colaboratory

training-data

numpy

回答 1

Stack Overflow用户

发布于 2020-12-11 23:40:42

我通常做的是：

压缩所有图像，并将.zip文件加载到您的colab中的Drive
1. 解压缩包中:

from zipfile import ZipFile

with ZipFile('data.zip', 'r') as zip:
   zip.extractall()

你所有的图像都被压缩并存储在Colab磁盘上，现在你可以更快地访问它们。
使用keras中的生成器，如flow_from_directory，或者创建你自己的generator
use，你可以在适合你的模型时生成:

moel.fit(train_generator, steps_per_epoch = ntrain // batch_size,
         epochs=epochs,validation_data=val_generator, 
         validation_steps= nval // batch_size)

使用ntrain和nval，训练和验证数据集中的图像数量

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/65253135

复制

相似问题

问如何在处理谷歌协作平台上的自动编码器时使用大型训练集？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在处理谷歌协作平台上的自动编码器时使用大型训练集？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何在处理谷歌协作平台上的自动编码器时使用大型训练集？
EN