我在一个应用程序上工作,我想在实时事件和过去的事件上运行Flink SQL。我尝试了一个POC,其中Flink在Kafka等流源上运行SQL,SQL查询只返回新的事件/更改。但是,我想在整个数据上运行SQL,一些数据可能会随着时间的推移而变化。基本上,我的要求是连续查询整个数据。如何使用Flink或任何其他流媒体解决方案来实现这一点?
发布于 2019-12-25 14:30:11
Flink SQL还没有提供合适的filesystem connector,所以这就带来了问题,至少现在是这样。另一方面,Kafka得到了很好的支持。
发布于 2019-12-27 02:04:49
如果您希望statefull后端能够随着历史记录的增长而良好地扩展,那么查看可用的连接器可能会更好。
最有可能的候选者似乎是Hbase。
到目前为止,一般的答案是。
最好从这里开始,但对于希望使用S3的人来说,知道Cloudera数据平台很快就会包含一个由S3支持的Hbase解决方案可能是件好事。
免责声明:我是Cloudera的员工,是Kafka、Hbase和soon Flink背后的推动力
https://stackoverflow.com/questions/59441198
复制相似问题