我正在尝试创建处理大数据集的ML模型。我的问题更多地与这些大数据集的预处理有关。在这个意义上,我想知道使用Dataprep或Tensorflow进行预处理有什么不同。
任何帮助都将不胜感激。
发布于 2018-03-12 15:08:56
这是三个不同的东西,你不能真的比较它们。
数据代表-用于可视化探索、清理和准备用于分析的结构化和非结构化数据的数据服务。
换句话说,如果你有大量的培训数据,并且你想清理它,可视化等等,google的数据代表可以让你很容易地做到这一点。
云Dataproc是一种快速、易于使用、完全管理的云服务,用于以一种更简单、更节省成本的方式运行Apache和Apache集群。
在问题的上下文中,在清理数据并将其输入到ML算法之后,您可以使用Cloud将其分布到多个节点,并以更快的速度处理它。在某些机器学习算法中,磁盘读取速度可能是一个瓶颈,因此它可以极大地提高机器学习算法的运行时间。
最后,Tensorflow:
TensorFlow™是一个使用数据流图进行数值计算的开源软件库。图中的节点表示数学操作,而图边则表示它们之间通信的多维数据数组(张量)。
因此,在您的数据准备好处理之后,您可以使用Tensorflow来实现机器学习算法。Tensorflow是一个python库,因此相对容易获取。Tensorflow还允许在GPU而不是CPU上运行算法,以及(最近)在Google (专门为机器学习而设计的硬件,甚至比GPU更好的性能)上运行算法。
发布于 2018-03-13 20:48:46
在机器学习的预处理方面,我想花点时间详细回答这个问题。所以,请容忍我!
Google提供四种不同的处理产品。由于预处理有不同的方面,并且涵盖了许多不同的ML先决条件,所以这些平台中的每一个都更适合于特定的预处理领域。产品如下:
Google引擎/ Cloud :该产品基于Tensorflow。您可以在ML引擎上运行Tensorflow中的机器学习代码。对于图像、文本或序列等特定类型的数据,可以使用tf.keras.preprocessing或tf.contrib.learn.preprocessing库快速为Tensorflow提供适当的数据输入/张量格式。您还可能需要在预处理步骤中通过tf.Transform转换数据。tf.Transform是一个TensorFlow库,它允许用户将预处理管道定义为TensorFlow图的一部分。tf.Transform确保在预处理过程中不会出现任何偏差。
Cloud DataPrep:预处理有时被定义为数据清理、数据清理、数据准备和数据更改。为此,云DataPrep是最好的选择。例如,如果您希望去掉空值或一些可能导致ML模型中错误的ASCII字符,则可以使用Cloud。
DataFlow,Cloud :特征提取、特征选择、缩放、降维也可以作为ML预处理的一部分。由于云DataFlow和DataProc都支持Spark,所以可以使用Spark库对ML模型输入进行分布式快速预处理。Apache也可以应用于许多ML预处理/处理。注意,由于云DataFlow支持Apache,所以它更倾向于流处理,而云DataProc则更基于Hadoop,并且更适合批处理。有关更多细节,请参阅使用Apache和TensorFlow文档
https://stackoverflow.com/questions/49234809
复制相似问题