是否可以直接使用org.apache.spark.sql.delta.sources.DeltaDataSource在附加模式下连续摄取数据?
还有其他更合适的方法吗?我关心的是延迟和扩展性,因为每个振动传感器的数据采集频率可达30 KHz,其中有几个,我需要在Delta记录原始数据,以便进行FFT和小波分析等。
在我的体系结构中,数据摄取是在星火应用程序中连续进行的,而分析则是在另一个具有按需查询的独立星火应用程序中执行的。
如果Delta没有解决方案,那么Apache的解决方案将有效,因为它可以从存储在Parquet数据集中的数据创建Delta中的数据集。
发布于 2022-01-15 19:05:53
是的,这是可能的,而且效果很好。对于流式体系结构,Delta有几个优点:
你可以用.format("delta")代替全类名。
https://stackoverflow.com/questions/70724155
复制相似问题