我们正在开发一个平台,对跨图的实体流进行建模。系统必须回答这样的问题:有多少个具有这些属性的实体坐在图上的给定节点上,节点上的流入是什么,节点上的流出是什么。流数据被输入到流中的系统。我们正在考虑打破时间桶(例如5分钟)中的流数据,并根据不同的属性预计算各种聚合,并将聚合存储在DynamoDB中以服务查询。
关于这一点,我们正在评估以下备选方案:
发布于 2015-08-24 05:15:13
最终解决方案采用AWS红移,驱动原因是对高速数据摄取的要求,红移通过复制命令提供。
Hadoop是为有效地存储数据而构建的,但是它并不是用于摄取的子秒sla,也不是为jobs提供数据的SLA,这是我们一般不使用EMR或Hadoop的主要原因。
发布于 2013-03-13 23:08:58
我用电子病历处理S3中的数据。效果很好。最好的部分是,你可以旋转hadoop集群的不同大小,以适应工作负荷。
您可能需要查看风暴以进行流处理。
我还在这里收集大数据工具的列表:Ecosystem.html。
https://stackoverflow.com/questions/15386628
复制相似问题