文章/答案/技术大牛

发布

社区首页 >问答首页 >将本地SQL server数据库数据以Parquet格式复制到Azure

问将本地SQL server数据库数据以Parquet格式复制到Azure
EN

Stack Overflow用户

提问于 2017-05-15 16:58:13

回答 1查看 2K关注 0票数 1

架构/性能问题在这里。

我有一个本地SQL server数据库，它有大约200个表，总容量约为10TB。我需要通过HDInsight Spark在Azure中为数据科学分析提供拼图格式的数据。

将此数据复制/转换为Azure (Blob存储或数据湖)的最佳方式是什么？

由于任务的可管理性(从大约200个表开始)，我最好的方法是-通过sqlcmd将数据从本地提取到文件共享，将其压缩为csv.bz2，然后使用数据工厂将文件共享(使用'PreserveHierarchy')复制到Azure。最后，运行pyspark加载数据，然后将其保存为.parquet。

给定表模式，我可以通过T-SQL从SQL数据库中自动生成SQL数据摘要和python脚本。

有没有更快和/或更易管理的方法来实现这一点？

sql-server

azure

parquet

azure-data-factory

bzip2

回答 1

Stack Overflow用户

发布于 2017-05-15 18:04:52

ADF以一次性和基于计划的数据移动完美地满足了您的需求。

尝试ADF的复制向导。有了它，您只需单击几下，即可直接将本地SQL转换为Parquet格式的blob/ADLS。

Copy Activity Overview

票数 -1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/43975225

复制

相似问题

问将本地SQL server数据库数据以Parquet格式复制到Azure
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将本地SQL server数据库数据以Parquet格式复制到AzureEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将本地SQL server数据库数据以Parquet格式复制到Azure
EN