文章/答案/技术大牛

发布

社区首页 >问答首页 >使用Spark3.2连续摄取三角洲湖泊的IoT数据

问使用Spark3.2连续摄取三角洲湖泊的IoT数据
EN

Stack Overflow用户

提问于 2022-01-15 18:18:36

回答 1查看 127关注 0票数 2

是否可以直接使用org.apache.spark.sql.delta.sources.DeltaDataSource在附加模式下连续摄取数据？

还有其他更合适的方法吗？我关心的是延迟和扩展性，因为每个振动传感器的数据采集频率可达30 KHz，其中有几个，我需要在Delta记录原始数据，以便进行FFT和小波分析等。

在我的体系结构中，数据摄取是在星火应用程序中连续进行的，而分析则是在另一个具有按需查询的独立星火应用程序中执行的。

如果Delta没有解决方案，那么Apache的解决方案将有效，因为它可以从存储在Parquet数据集中的数据创建Delta中的数据集。

java

scala

apache-spark

parquet

delta-lake

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-01-15 19:05:53

是的，这是可能的，而且效果很好。对于流式体系结构，Delta有几个优点：

您不存在在流工作负载中经常出现的“小文件问题”--您不需要列出所有数据文件来查找新文件(比如Parquet或其他数据源)--所有数据都记录在事务日志中
您的消费者看不到部分写入，因为Delta提供了事务性功能
流工作负载是三角洲本地支持
即使是流工作负载，也可以执行删除/更新/合并--使用Parquet是不可能的

你可以用.format("delta")代替全类名。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/70724155

复制

相似问题

问使用Spark3.2连续摄取三角洲湖泊的IoT数据
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Spark3.2连续摄取三角洲湖泊的IoT数据EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问使用Spark3.2连续摄取三角洲湖泊的IoT数据
EN