我正在使用Kubeflow Pipeline,我想要实现的是有一个步骤(python函数),在这个步骤中我创建了一个Iterator (generator),我想从这个步骤创建一个TF.Dataset
Kubeflow步骤之间的连接仅允许具有原语类型的输入/输出,因此我无法将迭代器或迭代器初始化数据集传递到下一步。
这是管道的概述
+-------------+ +-------------------+ +------------------------------+
| Data Ingest +---> Create TF.Dataset +---> Consume Tf.Dataset in Model |
+-------------+ +-------------------+ +------------------------------+由于我只能传递基元类型,是否有可能存储迭代器初始化的Dataset?
数据存储在Google Storage上,大小不足以放入内存,怎么会有人做到这一点呢?
我知道这是一个宽泛的问题,但由于Kubeflow是相当新的,我在任何地方都找不到任何有用的资源。
发布于 2019-06-05 02:25:43
有什么特别的理由要把“创建TF.Dataset”和“消费Tf.Dataset”分成两步吗?1.将它们合并成一个步骤如何? 2.通过“将数据集写入存储”/“从存储读取数据集”来共享数据集?
发布于 2020-07-10 17:59:57
您将TF数据集存储在哪里?
建议:在创建TF数据集时将其存储在GCS中。然后在下一个管道阶段使用tf.data.TFRecordDataset读取数据。
管道中的各个阶段具有不同的运行时。所以,你不能从一个流水线阶段到另一个阶段使用任何变量。
https://stackoverflow.com/questions/56341401
复制相似问题