文章/答案/技术大牛

发布

社区首页 >问答首页 >跨各种属性聚合的最佳技术栈

问跨各种属性聚合的最佳技术栈
EN

Stack Overflow用户

提问于 2013-03-13 13:24:46

回答 2查看 181关注 0票数 0

我们正在开发一个平台，对跨图的实体流进行建模。系统必须回答这样的问题:有多少个具有这些属性的实体坐在图上的给定节点上，节点上的流入是什么，节点上的流出是什么。流数据被输入到流中的系统。我们正在考虑打破时间桶(例如5分钟)中的流数据，并根据不同的属性预计算各种聚合，并将聚合存储在DynamoDB中以服务查询。

关于这一点，我们正在评估以下备选方案：

EMR:将流数据放在AWS-S3/DynamoDB中，运行一个Map /hive作业
将最近的数据放入AWS中，通过sql计算聚合。
Akka:这是一个通过Actors和消息传递构建分布式应用程序的框架。如果有人使用过类似的用例或使用过上述任何技术，请让我知道哪种方法最适合我们的用例。

hadoop

amazon-web-services

amazon-s3

amazon-redshift

elastic-map-reduce

回答 2

Stack Overflow用户

回答已采纳

发布于 2015-08-24 05:15:13

最终解决方案采用AWS红移，驱动原因是对高速数据摄取的要求，红移通过复制命令提供。

Hadoop是为有效地存储数据而构建的，但是它并不是用于摄取的子秒sla，也不是为jobs提供数据的SLA，这是我们一般不使用EMR或Hadoop的主要原因。

票数 0

Stack Overflow用户

发布于 2013-03-13 23:08:58

我用电子病历处理S3中的数据。效果很好。最好的部分是，你可以旋转hadoop集群的不同大小，以适应工作负荷。

您可能需要查看风暴以进行流处理。

我还在这里收集大数据工具的列表：Ecosystem.html。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/15386628

复制

相似问题

问跨各种属性聚合的最佳技术栈
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问跨各种属性聚合的最佳技术栈EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问跨各种属性聚合的最佳技术栈
EN