我正在考虑使用数据湖技术,最近几周我一直在研究这些技术,与我多年来一直在使用的传统ETL方案相比。
我认为data是与大数据非常相关的东西,但是使用Data技术与SSIS之间的界线在哪里呢?
使用25 Is ~100 Is~300 Is文件的数据湖技术有什么优势吗?平行?灵活性?将来还可以扩展吗?当要加载的文件没有U最好的场景那么大时,性能是否有提高.
你的想法是什么?就像用锤子敲螺母一样吗?请不要犹豫地问我任何问题来澄清情况。提前谢谢!!
21/03编辑更多说明:
不要误解我的意思,我真的很喜欢ADL技术,但我认为,就目前而言,它是针对一些非常具体的东西,而且在云中仍然没有SSIS的替代品。你是怎么回事?我说错了吗?
发布于 2017-03-18 17:37:19
对我来说,如果数据是高度结构化和关系性的,那么正确的位置是关系数据库。在Azure,您有几种选择:
对于所有数据库选项,您可以使用聚集列存储索引(ADW中的缺省值),这可以提供5x到10x之间的大量压缩。
每年每天400 TB的总容量为143 TB,这在现代数据仓库中并不算多,通常以TB来衡量。
Azure (ADLA)出现的地方,是做一些在普通SQL中无法做的事情,比如:
ADLA还提供联邦查询功能,即将数据库中的结构化数据和湖中的非结构化数据结合在一起。
您的决定似乎更多地取决于您是否应该使用云。如果您需要云的弹性和可伸缩特性,则Azure Data是将数据从云中移到另一个位置的工具。
HTH
发布于 2017-03-17 11:53:12
注意。这个问题可能会因为过于宽泛而被关闭。
有许多赞成和反对的论点。我们不能在这里讨论他们。
ADL不是SSIS的替代品。顾问的回答将一如既往。它取决于你在做什么/试图做什么。
一个简单的答案可能是。ADL是无限的和高度可扩展的。SSIS不是。但是,是的,由于这种可伸缩性,ADL对于小文件有一个很高的入口点。
一般来说,我不认为这两种技术是可比的。
如果你想让SSIS在Azure。等待MS将其作为PaaS发布。或者使用虚拟机。
发布于 2017-03-17 13:11:50
我认为对于更简单的转换,它可能是一个很好的解决方案,但是如果您有复杂性、通知等,那么它可能是不兼容的。一个典型的场景是将一个JSON文档转换为CSV,然后使用CSV并通过SSIS运行它以进行进一步的转换。肯定有一种未来的状态将使uses变得更加强大,目前我认为uses/ADLA/ADLS和SSIS有单独和不同的用途。
https://stackoverflow.com/questions/42852489
复制相似问题