首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将本地SQL server数据库数据以Parquet格式复制到Azure

将本地SQL server数据库数据以Parquet格式复制到Azure
EN

Stack Overflow用户
提问于 2017-05-15 16:58:13
回答 1查看 2K关注 0票数 1

架构/性能问题在这里。

我有一个本地SQL server数据库,它有大约200个表,总容量约为10TB。我需要通过HDInsight Spark在Azure中为数据科学分析提供拼图格式的数据。

将此数据复制/转换为Azure (Blob存储或数据湖)的最佳方式是什么?

由于任务的可管理性(从大约200个表开始),我最好的方法是-通过sqlcmd将数据从本地提取到文件共享,将其压缩为csv.bz2,然后使用数据工厂将文件共享(使用'PreserveHierarchy')复制到Azure。最后,运行pyspark加载数据,然后将其保存为.parquet。

给定表模式,我可以通过T-SQL从SQL数据库中自动生成SQL数据摘要和python脚本。

有没有更快和/或更易管理的方法来实现这一点?

EN

回答 1

Stack Overflow用户

发布于 2017-05-15 18:04:52

ADF以一次性和基于计划的数据移动完美地满足了您的需求。

尝试ADF的复制向导。有了它,您只需单击几下,即可直接将本地SQL转换为Parquet格式的blob/ADLS。

Copy Activity Overview

票数 -1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/43975225

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档