背景(抱歉太长了):
我的任务是维护一个收集各种在线广告数据的ETL,每天收集20-30 MBs,并将其附加到MySQL中的表中。外部承包商用五旬节勺(厨房,水壶?)建造ETL。ETL由大约250个作业和转换(.ktr、.kjb)组成,每个转换大约有5到25个步骤。在这个大的过程中,有问题是很常见的。我发现编写R脚本来完成转换和加载要高效得多。实际上,我认为除了使用RMySQL (即plyr!)调用之外,ETL还可以减少到1000行以下。也许Python将用于从web中提取数据。
我对R的使用导致了一些阻力。设计ETL的计算机程序员不知道R,所以如果我离开,就不能调用R,而且在Spoon ETL上投入了大量的时间。此外,一个外行可以更容易地遵循步骤,视觉上的勺子,比在R脚本。就我而言,我认为我们正陷入ETL的泥潭。然而,我在这件事上没有很大的发言权,因为我没有计算机科学的背景。
如果您对以下内容有任何见解,请发表评论。请知道我已经研究这个问题好几个月了,并且阅读了很多意见,但是没有什么像通常所提供的那样简洁可靠:
谢谢你的回复。我不是指对Spoon或Spoon用户的任何屈尊,我只是真的很困惑,需要外界的意见。
发布于 2013-02-21 10:16:42
作为ETL工具?这是一个新的,但无论什么浮动你的船。
我想说的是,如果你能得到250个工作和转换到1000行以下的R,我会说你的ETL写得很差。
除此之外,您还必须考虑可支持性和可伸缩性。我可以想象,如果使用像Spoon这样的图形化工具,而不是使用R代码,这两者都会容易得多。
就我个人而言,我认为你被误导了,你问的问题写得不好,但那是另一个论点。
关于您的要点,PDI的日志记录非常好,您可以任意登录,如果您喜欢合并日志,所有这些都可以放入一个大型数据库表中。
ETL不会消失,即使像HDFS这样的非结构化数据存储池的到来,也会考虑到在R之外进行的数据分析,如果您想要在数据顶部进行报告或OLAP,那么它仍然需要进行转换。
这是真的吗,更多的人使用R对宾得吗?这是什么问题?我猜你指的是PDI?那又如何比较呢?数据分析工具与ETL工具,您想要统计用户吗?嗯?另一方面,如果你指的是R对五旬节作为一个整体,那么我猜no.You正在看一篇关于R vs Weka的报告,并使它符合你的ETL论点。一个月的星期天都洗不了。
==EDIT==,好的,您现在有大约1000行R& Python代码。随着老板的需求扩展,随着时间的推移,这种需求会慢慢增加,而且由于你正试图达到最后期限,所以新代码的编写过程与你目前已有的代码一样干净,或者有很好的文档。因此,随着时间的推移,这将增加到5000行,比如加上一些python脚本。然后有一天你被一辆公共汽车撞了,一些新的人进来管理你的代码.他们从哪里开始,他们如何作出改变?
实际上,任何拥有少量数据经验的人都可以在需要时对PDI ETL进行更改。当它需要一些足够深的R知识来改变你所做的事情的时候。
ETL工具的设计速度快、使用方便,在连接不同系统(例如,非db或基于文件)的数据连接方面,它们也提供了远远超出R所能提供的功能,尽管我想这就是人们诉诸python等的原因。尽管如此,在我所看到的社区中,还有一个PDI插件可以同时使用。
最重要的是,多年来,我已经看到了足够多的TSQL来迁移ETL,从经验中可以了解到,即使在代码中维护ETL在短期内似乎是可行的,但从长远来看,它只会带来更多的痛苦。
另一方面,如果您可以将250个PDI转换编码到1000行R,那么您的ETL可能会因为前任的糟糕设计而膨胀。
如果你想让我给你的现有PDI ETL结构的意见,这也可以安排。
汤姆
https://stackoverflow.com/questions/14996712
复制相似问题