SSIS包在远程服务器(Greenplum )上执行ETL。它运行良好,但需要8+小时才能完成。远程服务器的交互表上的数据是巨大的(每一行约10亿行)。在SSIS上是否有一种方法或任何可供选择的方法,特别是针对海量数据?
远程服务器:数据湖(Greeplum) PS:由于公司策略,我无法安排对数据湖本身的查询。但是,如果手动在数据湖上运行相同的脚本,则大约需要1小时20分钟才能完成作业。
谢谢!
发布于 2022-06-27 01:11:55
SSIS如何执行ETL?它运行insert into .. values ...吗?如果是这样的话,由于insert开销很高,因此性能会很差。有几个参数可以帮助您(参考https://greenplum.org/oltp-workload-performance-improvement-in-greenplum-6/):
然而,要做ETL的原因是通过gpload/gpfdist (或gps)。
https://stackoverflow.com/questions/72752535
复制相似问题