我正在收集各种ETL工具(informatica、DataStage、Ab Initio)在可用性和性能方面的比较,我在informatica和Ab Initio上工作过,在网络帮助下,我能够找到这两种工具之间的关键要素和差异,但我无法在DataStage Vs Ab Initio上找到任何有用的信息,我所做的如下:
1. DS supports one type of parallelism where Ab-Initio supports 3(data,component,pipeline)
2. Debugging is a lot easir in Ab-Initio as it has error port on all components.
3. Ab Initio works well with masive volume than DS谁能帮我收集更多的差异,架构智慧,性能智慧或任何其他?
发布于 2018-06-14 13:31:35
我对从头算一无所知。但只能对你的观点发表评论。
1)从技术上讲,DataStage支持两种类型的数据流:数据流水线(考虑服务器作业)和并行分区(并行作业),它们具有重新分区的能力,可以在单个作业中混合这两个概念。但是,与那些知道自己在做什么的开发人员相比,他们有更多的能力。通过使用序列服务器/并行作业的排序器作业,可以很容易地在DS中实现/复制组件并行(假设它在后台如何工作)。使用它,您可以并行地运行多个并行/服务器作业,每个作业都可以处理一个数据流。您甚至可以重复单个并行作业在多个实例中运行,这样一个作业设计就可以在多个实例中同时运行。使用不同的元数据运行每个实例。
因此,如果使用这样的并行作业,不仅可以实现组件并行,而且每个组件都可以作为自己的并行分区流运行。这就允许了大量的数据处理能力。见第三点。
2)手边有几种工具和方法来调试单个作业:当然,有作业运行日志详细描述作业中的每个阶段日志输出,有一个阶段可以查看(输出)数据样本到同一个日志,这样您就可以看到实际日志中的数据值,还有IDE风格的断点调试器,在作业中设置一个断点,作业在运行过程中停在那个断点,然后评估您的记录,再加上更多的最佳实践,以在更大、更大的阶段最好地开发您的作业,以降低解决困难错误的可能性。您还可以禁用将日志卷到摘要中,以便在作业日志中的每个阶段获取详细的日志。每个阶段都输出自己的日志。
3) Information (特别是数据存储)已经进入了大数据和云数据处理空间(很大程度上来自昨天刚刚发布的11.7.0.1版本)。它能够在前提和云中生成大量的数据(结构化的和非结构化的)。无论您的数据是在传统数据库中,还是在亚马逊S3中,还是在Hive中(在hadoop上),它都是非结构化的源,可以在大量的并行流中进行处理。将它的连接和并行处理功能与处理引擎的线性可伸缩性功能结合起来。您可以将Information (即数据存储)配置为作为网格计算机运行。允许真正的大容量处理能力。我不确定从头算能不能做到这一点。
顺便提一句,如果可以的话:我觉得人们把数据存储看作是自己的工具,与Ab或Informatica这样的工具相比时,他们犯了一个错误。DataStage只是Information工具套件的一个组件(包含许多工具)。当你这样看待它的时候,我认为没有什么比它更好了。
没有任何东西可以管理元数据和数据沿袭,并在业务中的许多工具、角色和函数之间共享元数据和数据沿袭,从而为业务构建一个完整的图景。例如,如果您想签入或签出作业,那么使用DataStage附带的单独工具(用于跨环境部署、包部署、版本控制等)。集成到独立的版本控制系统中。如果您使用(非常)新的流设计器(基于web的DataStage版本)。你实际上可以承诺一个Git回复。
甚至不涉及如何使用套件中的其他工具的功能,您可以将DataStage作业公开为web服务。或使用DataStage和数据复制工具设置实时处理。
仅举几个例子,说明为什么将Information本身用于ETL而不仅仅是DataStage是有益的。
https://stackoverflow.com/questions/50851296
复制相似问题