我有一个数据集,其中输出是46226个类别之一。我还有数以百万计的样本。
但是似乎Keras/TensorFlow需要输出的一个热编码。
问题是,np_utils.to_categorical(y_indices,num_classes)会导致内存不足,因为我需要一个8000 x 46226矩阵.
我的工作PC有一个8G内存,当我尝试执行‘numpy.zeros(800046226)’时,当我将fine.But转换为一个热编码时,它会产生以下错误:
------------------------------------------------------------------------
MemoryError Traceback (most recent call last)
<ipython-input-9-7b9df1cf8cee> in <module>()
----> 1 Y_cat = to_categorical(Y, num_classes=nb_classes)
c:\program files\anaconda3\envs\python35\lib\site-packages\keras\utils\np_utils.py in to_categorical(y, num_classes)
22 num_classes = np.max(y) + 1
23 n = y.shape[0]
---> 24 categorical = np.zeros((n, num_classes))
25 categorical[np.arange(n), y] = 1
26 return categorical
MemoryError: 有什么办法让Keras解决这一障碍吗?如果有人能指出如何最好地做到这一点,我很乐意添加一些代码。
发布于 2017-09-19 07:04:11
您实际上不需要一个热编码标签,您可以使用整数标签与sparse_categorical_crossentropy损失,它接受整数标签。
这样就不应该出现内存不足的错误。另一种选择是制作一个生成器(与fit_generator一起使用)和一个热门的代码标签。
https://stackoverflow.com/questions/46293734
复制相似问题