首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >理解ETL过程

理解ETL过程
EN

Stack Overflow用户
提问于 2013-10-31 13:49:49
回答 2查看 1.5K关注 0票数 3

ETL似乎是一项相当常见的任务。我基本上是在阅读一些ETL错误,这些错误是设计人员在http://it.toolbox.com/blogs/infosphere/17-mistakes-that-etl-designers-make-with-very-large-data-19264上使用非常大的数据所犯的。

关于以下几点,我需要一些实际的见解

a)将插入、更新和删除合并到相同的数据流/相同进程中。这有什么问题吗?

b)同时采购多个系统,这取决于不同的数据系统。

( c)没有为需要访问的源/查找生成正确的索引。

( d)相信“我需要一次处理所有数据,因为这是最快的方法。”

有什么帮助吗?

EN

回答 2

Stack Overflow用户

回答已采纳

发布于 2013-11-04 03:57:51

( A)如果您发现任务完成时间太长(由于数据量的增加),然后就很难在技术上将它们分开,这将是一个问题。但是,将任务拆分可能会增加数据负载不一致的可能性(即您的DELETE工作但插入失败,这意味着您丢失了大量的数据)。

我不明白这里的“同时”--你的意思是同时?你可以最大限度地利用带宽(网络、磁盘等)如果您同时尝试从许多系统加载数据。有时,如果需要在脱机时间加载该数据,您将别无选择。

( C)是的,不正确的索引会减慢访问速度。但是,供应商通常不喜欢在源数据库中创建索引。

性能调优(最快的方法)是一个复杂的主题。在某些情况下,一次通过可能会更快。在其他情况下,情况可能并非如此。

票数 1
EN

Stack Overflow用户

发布于 2013-11-01 02:05:55

a)数据完整性问题

( b)较小块的数据质量将提高,故障较少。

( c) complete<需要更多的时间

( d)错误的索引会导致更多的时间。最好根据正在执行的查询建立索引。即语句where子句中的内容

( e)将数据分割成较小的数据集并进行处理将是一种有效的解决方案

你的-皮拉尼(威尔普)学生仪式。

票数 3
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19708341

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档