我使用kudu和spark streaming作为实时仪表板,我的问题是,当我使用kudu表连接spark streaming中的批处理时,它不会对其进行谓词下推,并且需要2-3秒来获取整个spark表,然后对其进行过滤。有什么办法可以避免这种情况吗?
谢谢,
Alexandru
发布于 2019-11-13 11:27:04
1.Kudu是一个列式存储引擎,您可以选择need.It哪一列可以减少从kudu拉取的数据。
2.kudu谓词下推支持>、<、>=、<=、=、BETWEEN或IN在从kudu.And谓词下推可能触发的过滤数据之后,您可能可以缓存数据。
https://stackoverflow.com/questions/58615827
复制相似问题