我正试图在Microsoft数据仓库之上构建一个实时报告服务。目前,我有一个拥有大约5TB数据的SQL服务器。我想将数据流到数据仓库,并使用Azure DW的计算能力生成基于数据的实时报告。是否已经准备好使用/最佳实践来做到这一点?
我正在考虑的一种方法是将数据加载到Kafka中,然后通过Spark流将其流到Azure DW中。然而,这种方法比实时方法更接近实时.是否有任何方法利用Server更改数据捕获来将数据流到数据仓库中?
发布于 2017-10-23 15:55:33
我个人并不认为Azure SQL数据仓库在实时架构中。这是一个批量MPP系统,经过优化,可以在多个节点上分解数十亿行。在我看来,这种模式不是亚秒级或实时表现的代名词。实时架构看起来更像事件中心> Azure中的流分析。可用的低并发性(目前最多有32个并发用户)也不适合报告。
作为另一种选择,您可以考虑使用Azure SQL数据库内存表进行快速加载,然后在方便的情况下将其交给仓库。
您可以使用批处理和实时元素在所谓的Lambda体系结构中使用Azure SQL数据仓库,其中is支持批处理流。详情请参阅此处:
发布于 2017-10-24 18:42:52
如果您正在寻找一种基于SQL的实时报告应用程序的SaaS解决方案,我们最近发布了一个名为步幅的HTTP产品,该产品基于我们构建的能够处理此类工作负载的开源流SQL数据库PipelineDB。
Stride API使开发人员能够在流数据上运行连续SQL查询,并将连续查询的结果存储在表中,这些表将在新数据到达时得到增量更新。这可能是添加前面提到的实时分析层类型的更简单的方法。
可以随意查看跨步技术文档以获得更多细节。
https://stackoverflow.com/questions/46892691
复制相似问题