首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >使用Spark3.2连续摄取三角洲湖泊的IoT数据

使用Spark3.2连续摄取三角洲湖泊的IoT数据
EN

Stack Overflow用户
提问于 2022-01-15 18:18:36
回答 1查看 127关注 0票数 2

是否可以直接使用org.apache.spark.sql.delta.sources.DeltaDataSource在附加模式下连续摄取数据?

还有其他更合适的方法吗?我关心的是延迟和扩展性,因为每个振动传感器的数据采集频率可达30 KHz,其中有几个,我需要在Delta记录原始数据,以便进行FFT和小波分析等。

在我的体系结构中,数据摄取是在星火应用程序中连续进行的,而分析则是在另一个具有按需查询的独立星火应用程序中执行的。

如果Delta没有解决方案,那么Apache的解决方案将有效,因为它可以从存储在Parquet数据集中的数据创建Delta中的数据集。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2022-01-15 19:05:53

是的,这是可能的,而且效果很好。对于流式体系结构,Delta有几个优点:

  • 您不存在在流工作负载中经常出现的“小文件问题”--您不需要列出所有数据文件来查找新文件(比如Parquet或其他数据源)--所有数据都记录在事务日志中
  • 您的消费者看不到部分写入,因为Delta提供了事务性功能
  • 流工作负载是三角洲本地支持
  • 即使是流工作负载,也可以执行删除/更新/合并--使用Parquet是不可能的

你可以用.format("delta")代替全类名。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/70724155

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档