我正在调查、Google、Dataflow、和Apache ,以决定哪种解决方案更适合我们的大数据分析业务需求。
我发现在spark平台中有Spark SQL和MLlib来进行结构化数据查询和机器学习。
我想知道谷歌数据流平台中是否有相应的解决方案?
发布于 2015-11-04 20:44:13
如果您能够对您的特定用例进行一些扩展,这将有所帮助。在"Bigdata分析“方面,您想做些什么?简单的回答..。视情况而定:)
以下是与诉Spark和Hadoop先生有关的一些关键架构要点。
net:-如果您主要从事ETL样式的工作(过滤、成形、加入、.)或者批处理样式的MapReduce数据流是一个很好的路径,如果您想要最小的devOps。
所以..。你在想什么?
发布于 2015-11-04 17:12:37
我都试过了:
数据流仍然非常年轻,对于使用它来执行ML并不是“开箱即用”的解决方案(即使您可以在转换中实现算法),您可以将进程数据输出到云存储中,然后再用另一个工具读取它。
Spark将被推荐,但您必须自己管理群集。然而,有一个很好的选择: Google
您可以使用spark开发分析工具,并在集群上使用一个命令进行部署,dataproc将管理集群本身,而不必调整配置。
发布于 2017-10-19 20:48:13
我已经用星星之火构建了代码,DataFlow .Let me把我的想法。
星星之火/DataProc:我在ETL中使用了很多火花(Pyspark)。您可以使用SQL和您选择的任何编程语言。有很多可用的函数(包括窗口函数)。构建您的数据,并编写您的转换,它可以是超级快。一旦数据被缓存,对Dataframe的任何操作都会很快。
您可以简单地在GCS上构建hive外部表。然后,您可以使用并将数据加载到大型查询中。这是批处理用的。
对于流,您可以使用火花流并将数据加载到大查询中。
现在,如果您已经准备好集群,那么您必须考虑是否要迁移到Google。我发现Data (/Spark)提供的更好,因为您不必担心很多集群管理。
DataFlow :它被称为apache。在这里,您可以用Java/Python或任何其他语言编写代码。您可以在任何框架(Spark/MR/Flink)中执行代码,.This是一个统一的模型。在这里,您可以进行批处理和流数据处理。
https://stackoverflow.com/questions/33518104
复制相似问题