仅用于分布式任务执行是有益的。我有处理大型数据集的要求(从数据库读取、处理、写入数据库),但是处理是行级的。这意味着我不需要减少或机器学习。
用火花来满足这种要求会不会是一种过分的做法?什么是最适合这种要求的。我不想进入到软件基础结构的编写中,它将以最佳方式分发、处理故障、重试等等。
发布于 2016-02-04 06:51:37
火花更适合处理(真正的)大数据集和内存中的数据.一种选择是以类似的方式使用任何开源IMDG和处理数据,但(可能)复杂度较低。
您还可以根据要使用的语言选择IMDG引擎。对于.Net,您可以使用NCache,而对于Java,有很多,但是您可以使用TayzGrid
https://stackoverflow.com/questions/35043700
复制相似问题