关于将表从S3复制到雪花的过程,我有几个问题。
该计划是将AWS/S3中的一些数据复制到雪花上,然后用DataRobot进行建模。
谢谢,
马里
发布于 2021-12-23 21:51:39
假设您知道正在加载的数据的架构,那么您有几个使用雪花的选项:
COPY INTO语句将数据加载到表中,SNOWPIPE将数据自动加载到表中(对于定期将新数据加载到雪花表中的情况),EXTERNAL TABLES将S3数据直接引用为雪花表中的表。您可能希望为此使用MATERIALIZED VIEWS,以便使表执行得更好。至于从DataRobot中雇用PII数据,我建议利用雪花DYNAMIC DATA MASKING来建立规则,混淆DataRobot正在使用的角色的数据(或取消它)。
所有这些特性都在雪花文档中得到了很好的记录:https://docs.snowflake.com/
发布于 2021-12-25 09:15:10
关于隐藏PII元素,您可以使用两个不同的角色,一个是data_owner(创建表并在其中加载数据的角色),另一个是data_modelling (用于使用数据机器人)。
使用数据所有者创建掩蔽策略,以便数据机器人看不到列数据。
关于复制数据的问题,没有要求AWS S3文件夹必须与雪花同步。您可以使用任何名称创建外部阶段,并将其指向任何S3文件夹。
发布于 2021-12-25 20:54:46
雪花文档有一个很好的例子,它可以帮助您掌握以下内容:
https://docs.snowflake.com/en/user-guide/data-load-s3.htmlhttps://stackoverflow.com/questions/70466904
复制相似问题