有多种方法可以在tensorflow中获得数据集。tensorflow变换所做的事情之一是提供通过AnalyzeAndTransformDataset和TransformDataset进行预处理的能力。令人惊讶的是,所引用的数据集不是tensorflow数据集,而是apache波束意义上的数据集。这在某种程度上是可以理解的,因为函数是tft_beam.AnalyzeAndTransformDataset。
我问题的核心是:既然tensorflow已经知道元数据,为什么没有更容易的方法从tensorflow数据集获取到束数据集。我知道tensorflow数据集通常会永远重复,但是是否有一种方法可以将tensorflow数据集转换为可由beam处理的数据集?还是通过指向磁盘上的原始数据来创建波束数据集的唯一解决方案?这是否与tensorflow数据集的无界性有关,还是有其他原因使tensorflow数据集无法通过适当的转换进行分析/转换,从而从开发人员中抽象出来?我看到的所有例子都是从字典开始的,还有另一个堆栈溢出问题这里在一定程度上谈到了这一点,但没有完全解释为什么会这样。
发布于 2022-05-12 01:38:27
对于Tensorflow团队来说,这似乎是一个问题,而不是Apache,但是您提到的TFX转换是建立在Beam转换之上的(因此Beam被用作实用程序)。您不直接使用Beam结构(PColelctions、PTransforms等)。如果您想使用中间数据构建一个Beam管道,您可能需要从TFRecord文件开始,并使用Beam的tfrecordio源作为另一篇文章。
https://stackoverflow.com/questions/72204383
复制相似问题