首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在处理谷歌协作平台上的自动编码器时使用大型训练集?

如何在处理谷歌协作平台上的自动编码器时使用大型训练集?
EN

Stack Overflow用户
提问于 2020-12-11 22:25:58
回答 1查看 68关注 0票数 0

我正在google colab上训练一个自动编码器(keras)。然而,我有25000个输入图像和25000个输出图像。我试着这样做: 1-每次将大文件从google驱动器复制到colab (需要5-6个小时)。2-将集合转换为numpy数组,但当对图像进行归一化时,大小变得更大(例如从7 7GB到24 7GB),然后我无法将其放入ram内存中。3-我无法压缩和解压我的数据。所以,如果有人知道如何在没有大文件(24 if )的情况下将其转换为numpy数组(并对其进行归一化)。

EN

回答 1

Stack Overflow用户

发布于 2020-12-11 23:40:42

我通常做的是:

  1. 压缩所有图像,并将.zip文件加载到您的colab中的Drive
    1. 解压缩包中:

代码语言:javascript
复制
from zipfile import ZipFile

with ZipFile('data.zip', 'r') as zip:
   zip.extractall()

  1. 你所有的图像都被压缩并存储在Colab磁盘上,现在你可以更快地访问它们。
  2. 使用keras中的生成器,如flow_from_directory,或者创建你自己的generator
  3. use,你可以在适合你的模型时生成:

代码语言:javascript
复制
moel.fit(train_generator, steps_per_epoch = ntrain // batch_size,
         epochs=epochs,validation_data=val_generator, 
         validation_steps= nval // batch_size)

使用ntrainnval,训练和验证数据集中的图像数量

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/65253135

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档