架构/性能问题在这里。
我有一个本地SQL server数据库,它有大约200个表,总容量约为10TB。我需要通过HDInsight Spark在Azure中为数据科学分析提供拼图格式的数据。
将此数据复制/转换为Azure (Blob存储或数据湖)的最佳方式是什么?
由于任务的可管理性(从大约200个表开始),我最好的方法是-通过sqlcmd将数据从本地提取到文件共享,将其压缩为csv.bz2,然后使用数据工厂将文件共享(使用'PreserveHierarchy')复制到Azure。最后,运行pyspark加载数据,然后将其保存为.parquet。
给定表模式,我可以通过T-SQL从SQL数据库中自动生成SQL数据摘要和python脚本。
有没有更快和/或更易管理的方法来实现这一点?
发布于 2017-05-15 18:04:52
ADF以一次性和基于计划的数据移动完美地满足了您的需求。
尝试ADF的复制向导。有了它,您只需单击几下,即可直接将本地SQL转换为Parquet格式的blob/ADLS。
https://stackoverflow.com/questions/43975225
复制相似问题