我对Talend和Apache spark在大数据生态系统中的位置感到困惑,因为Apache Spark和Talend都可以用于ETL。
有人能举个例子来解释一下吗?
发布于 2018-06-28 18:55:27
Talend是一种基于工具的大数据方法,支持所有具有内置组件的大数据应用程序。其中as spark是基于代码的方法,您需要为用例编写代码。
发布于 2016-12-29 17:52:16
事实上,Talend Big Data studio为设计的ETL任务生成Apache Spark代码。因此,它们本质上是相同的。
发布于 2018-06-29 01:46:59
Talend studio为spark提供了内置组件,spark是其背后的主要引擎。由于内置的组件,它减少了编码时间。但是,如果您将使用spark与Scala、java或python一起直接编写代码,则需要时间来构建通用组件。Talend让生活变得更容易,并且很容易被传统的etl开发人员采用。例如,如果某人来自abi initio,他们可以通过查看Talend提供的图表或谱系进行关联。但是为了扩展业务组件,人们需要在Talend studio中使用spark编写代码I.Java。还有一件事,Talend负责打包jar并将其从windows部署到服务器,然后在其控制台中运行并显示结果。
https://stackoverflow.com/questions/40371279
复制相似问题