我们正在开发一种将单元表移动到teradata的解决方案,我们正在使用mapr-sqoop1.4.2和cloudera连接器连接Teradata1.0.5。Mapr版本是M5。然而,性能是波动的,因为一些表在15-20分钟内从Hadoop导出到Teradata,而其他表则需要3-4个小时。没有。所有表的记录和文件大小是相同的,no也是一样的。列的唯一值,该列用作teradata中的主要索引。(没有倾斜)。
客户端提出的问题是cloudera连接器1.0.5是否实际使用FASTLOAD。已传输的数据在DBQL表(Teradata)中显示为insert语句,该表似乎不使用FASTLOAD。
那么,我如何确定出口产品实际上是在使用FASTLOAD呢?
发布于 2013-12-19 15:49:27
Cloudera连接器是“Hadoop的Teradata连接器”的包装器。尝试直接使用Teradata的连接器来比较性能:
http://developer.teradata.com/connectivity/articles/teradata-connector-for-hadoop-now-available
您的Teradata应该能够从工具的历史记录中告诉您,在导出过程中是否使用了FastLoad。
https://stackoverflow.com/questions/19006069
复制相似问题