文章/答案/技术大牛

发布

社区首页 >问答首页 >数据基础架构实施-最佳方法

问数据基础架构实施-最佳方法
EN

Stack Overflow用户

提问于 2017-05-10 21:31:06

回答 1查看 73关注 0票数 0

作为POC的一部分，我需要构建一个数据基础架构，它可以从多个ERP源(SAP和Oracle)获取数据，并将其摄取到数据采集或目标数据库。此外，我还需要连接许多表，并根据业务需要进行严格的列转换。考虑到长期解决方案和大量数据摄取(大约10,000,000行)，哪种方法是明智的？最后，我将在我的应用程序中以视图或REST调用的形式使用这些数据。我是否需要为数据流任务考虑任何ETL工具？如果我正在考虑开源解决方案来实现这一点，我会采取什么方法呢？我是否需要考虑实施像Hadoop这样的大数据解决方案？如何从头开始呢？

谢谢!

erp

bigdata

hadoop

connection

etl

回答 1

Stack Overflow用户

发布于 2017-05-11 00:02:01

在这被标记为“主要基于意见”之前，这里是我的两点意见。

您可以完全使用Hadoop生态系统工具来实现这一点，并将HDFS (Hadoop分布式文件系统)用作“容错”数据湖/数据仓库。

我需要构建一个数据基础架构，该基础架构可以从多个ERP源(SAP和Oracle)获取数据，并将其摄取到数据采集或目标数据库

我们有Sqoop，您可以使用它将整个表从关系数据库移动到HDFS上。它通常很容易使用，并且只有几组命令。

此外，我还需要连接许多表，并根据业务需要进行严格的列转换

然后，您可以继续将数据加载到Hive上，这是一个构建在HDFS之上的数据仓库系统。它在查询和加载数据方面与RDBMS非常相似，并提供了一组很好的转换。

或者，如果你想提高标准，你可以在配置单元中创建这些表，然后将这些表加载到Spark中，在那里执行转换(和操作)，并将数据加载回配置单元(或使用Spark SQL的任何其他数据库)。

这些都是开源的，并与Cloudera CDH打包在一起进行测试。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43893973

复制

相似问题

问数据基础架构实施-最佳方法
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据基础架构实施-最佳方法EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问数据基础架构实施-最佳方法
EN