我们所有的ETL工作负载都是在IBM和Oracle作为数据库上设计的,但现在,企业正在开放源码平台中寻找选择,该平台提供分布式并行计算,可以在更短的时间内完成相同的任务,并节省一些技术成本。我从来都不是一个Java人,但是我有Python知识,我也接受过Apache的正式培训,我想利用这些知识将我们现有的数据存储设计转换成Spark。下面给出了我们目前在所有数据存储工作上所做的一些常见操作
file(txt/csv)
G 219
所有这些操作都能从火花中完成吗?至少我正在寻求重新创建火花中的步骤#1、#2、#3、#4和#6,这是可以实现的(就我的星火知识而言)。
请帮助/将我转到在这方面有帮助的资源。
发布于 2020-09-24 03:50:48
DataStage可以在星火上运行。与您的IBM帐户代表交谈。https://www.ibm.com/support/knowledgecenter/SSZJPZ_11.7.0/com.ibm.swg.im.iis.ds.fd.doc/topics/t_config_spark.html
https://stackoverflow.com/questions/63912208
复制相似问题