腾讯云
开发者社区
文档
建议反馈
控制台
登录/注册
首页
学习
活动
专区
圈层
工具
MCP广场
文章/答案/技术大牛
搜索
搜索
关闭
发布
搜索
关闭
文章
问答
(9999+)
视频
开发者手册
清单
用户
专栏
沙龙
全部问答
原创问答
Stack Exchange问答
更多筛选
回答情况:
全部
有回答
回答已采纳
提问时间:
不限
一周内
一月内
三月内
一年内
问题标签:
未找到与 相关的标签
筛选
重置
2
回答
传统
数据
湖
与AWS
湖
形成
我一直在为客户建立
数据
湖
,在那里我们将
数据
从onprem或任何其他来源加载到S
3
(一个
数据
湖
)中。我们将在这些原始
数据
上创建一个AWS Glue目录来创建模式。下一步是使用EMR或AWS Glue进行
数据
清理,将转换后的
数据
加载到RDS / REDSHIFT / S
3
中作为最终目标。分析人员、其他用户将使用IAM服务提供所需的
数据
/ S
3
桶访问,用于
浏览 0
修改于2021-04-28
得票数 3
2
回答
在Trigger.Once中使用Spark Structured
有一个CSV文件的
数据
湖
,这些文件全天都在更新。我正在尝试使用Trigger.Once功能创建一个Spark Structured作业,以定期将新
数据
写入到Parquet
数据
湖
中的CSV
数据
湖
中。这就是我所拥有的: .readStream .csv("s
3
a://csv-data-lake-files") 下面的命令将所有
数据
写入到
浏览 13
修改于2018-10-27
得票数 12
1
回答
从DynamoDB表创建
数据
池
我们希望从这个表中创建一个
数据
湖
,用于历史
数据
、模型培训和分析洞察力。我们想保证30分钟的
数据
湖
数据
“新鲜”w.r.t。原来的桌子。但是,我对什么是一个很好的体系结构感到困惑:我对
数据
湖
的理解是,您应该使用一个存储服务(即S
3
)来存储没有处理的原始
数据
。然后,执行ETL工作,在转换、处理和过滤
数据
(例如,使用Glue)之前,将其用于任何应用程序。 ,但我有疑问:,这是否意味着我们必须每30分钟将Dy
浏览 7
修改于2021-08-13
得票数 1
回答已采纳
1
回答
气流任务分离
假设有10个不同的REST API端点,我需要为每个查询收集不同的
数据
有效负载响应。每个
数据
响应都需要写入
数据
湖
存储。 我原本希望通过以下方式来实现: 任务#1获取有效负载1。任务#2将有效负载1写入
数据
湖
的中转区。任务#
3
获取有效载荷2。任务#4将有效负载2写入
数据
湖
的中转区。……直到所有的有效载荷都被写入
数据
湖
。问题是我如何将
数据
有效负载从例如任务1(它得到它)传递到需要写入它
浏览 48
修改于2021-10-07
得票数 0
回答已采纳
1
回答
在Azure
数据
工厂中,是否可以在不使用
数据
流的情况下控制大量输出文件的文件名?
例如,我可以使用
数据
工厂中的复制活动将1000万条记录客户表复制到Azure
数据
湖
中,并在源选项中使用“动态范围”分区选项。我的理解是,这将导致
数据
工厂将
数据
分解为
湖
中的许多文件。使用此方法,如何强制
湖
中输出文件的命名约定?例如,每个文件名都以'cust_‘开头,这意味着文件将被称为cust_1、cust_2、cust_
3
、cust_4等。
浏览 3
提问于2021-06-17
得票数 1
回答已采纳
2
回答
Azure
数据
工厂- Azure
数据
湖
Gen1 access
一个文件正在由Logic添加到V2 I有一个
数据
工厂访问‘1’来处理该文件。在添加文件之后,当我尝试调试
数据
工厂时,我会收到以下错误。File path: 'Stem/Benchmark/DB_0_Measures_1_05052020 - Copy - Copy - rounded, date changed - Copy (
3
).到目前为止尝试过:-为
数据
工厂及其子女在
数据
湖
中分配权限。 children.Added
数据
工厂作为
浏览 5
提问于2020-05-06
得票数 0
1
回答
在AWS中,具有HDFS或S
3
的
数据
池之间有什么区别?
我需要在AWS上构建一个
数据
湖
,但是我不知道S
3
和HDFS到底有什么不同。我在网上找到了一些答案,但我仍然不明白真正的区别。 我还需要知道是否有人在AWS中拥有HDFS和S
3
的
数据
湖
架构。
浏览 2
修改于2020-05-25
得票数 1
回答已采纳
1
回答
使用雅典娜时,基于分区Id的s
3
细粒度访问控制是可能的吗?
我们使用S
3
作为我们的
数据
湖
,它以customerId作为partitionId。雅典娜被用来查询这个
数据
湖
。 在DDB和S
3
中查询
数据
时,我们使用细粒度访问控制(使用SDK).
浏览 12
提问于2022-09-22
得票数 0
1
回答
在雅典娜查询中获取S
3
文件创建/更新日期
有没有内置的雅典娜函数可以在查询结果中显示给定行的底层S
3
文件创建/修改日期?我们有一个具有许多不同文件格式的大型
数据
湖
,很难将这些信息添加到所有这些
数据
湖
中。
浏览 3
修改于2021-07-07
得票数 0
1
回答
从onprem到
数据
湖
存储的azure
数据
湖
增量复制任务
我在prem servefr上有
3
个文件夹,每个文件夹都有几个文件。我的目标是以增量方式将文件从onprem服务器加载到
数据
湖
中,因此,一旦我们下次将文件复制到
数据
湖
中,只需移动新文件。
浏览 0
提问于2018-04-17
得票数 0
1
回答
Kappa体系结构是否使用
数据
湖
?
Kukreja在“Apache、Delta
湖
和Lakehouse的
数据
工程”中说,Kappa体系结构没有
数据
湖
。微软在 (见图)中提到了一家“长期商店”,但没有透露它的实际情况。它使用这些
数据
来“重新计算”。对我来说,这是一个
数据
湖
。
浏览 10
修改于2022-07-22
得票数 0
回答已采纳
2
回答
增量-五旬节
数据
集成(PDI)
我开始使用宾得
数据
集成,我打算使用它来用服务器上的
数据
更新
数据
湖
。但是,我只需要添加
数据
湖
中还不存在(增量)的
数据
。SQL示例:我不知道是否可以通过sql、filter或其他方式实现这个增量。
浏览 4
提问于2020-11-10
得票数 0
回答已采纳
1
回答
是否跟踪
数据
池中
数据
的更改?
最近我发现了
数据
湖
世界,我计划用ADL建立一个
数据
湖
。我不确定的一件事是
数据
湖
应该如何跟踪随时间变化/处理与源不同版本的更改。我遇到过这样的站点,声称
数据
湖
按原样提供
数据
,其他状态是
数据
应该是时间戳,或者文件夹结构应该反映时间戳。干杯!
浏览 0
提问于2019-07-24
得票数 0
回答已采纳
1
回答
如何从Azure
数据
湖
转换,将
数据
按日期文件夹分区到delta
湖
我拥有一个由datetime嵌套文件夹划分
数据
的蔚蓝
数据
湖
gen2。我想向我的团队提供增量
湖
格式,但是我不确定我是否应该创建一个新的存储帐户,将
数据
复制成增量格式,或者将当前的蔚蓝
数据
湖
转换为增量
湖
格式是否是最佳实践。 有人能提供关于这件事的任何建议吗?
浏览 2
修改于2022-10-05
得票数 0
回答已采纳
2
回答
如何使用
数据
工厂截断Dynamics 365实体(并复制到Azure
数据
湖
)?
我目前正在使用
数据
工厂将实体从Dynamics 365批量复制到Azure
数据
湖
。实体每24小时保存为
数据
湖
中的CSV文件。我希望将实体截断为新
数据
,并附加到
数据
湖
中已经存在的文件中,而不是批量复制。 我认为这是SQL
数据
库的常见操作,但这可以在Dynamics 365和
数据
湖
之间完成吗?
浏览 14
提问于2019-05-01
得票数 1
2
回答
使用Azure
数据
工厂不分阶段地将
数据
从Azure
数据
湖
复制到SnowFlake
Azure Data将
数据
从2复制到SnowFlake的所有示例都使用一个存储帐户作为平台。如果没有配置这个阶段(如图所示),即使我的源是Azure
数据
湖
中的csv文件,我也会在dataset中得到此错误--“只有当源
数据
集为DelimitedText、Parquet、JSON以及AzureBlob存储或S
3
S
3
链接服务时,才支持将
数据
直接复制到雪花片,对于其他
数据
集或链接服务,请启用暂存”。 如何在没有外部存储帐户的情况下使用data的复制<e
浏览 5
修改于2021-07-27
得票数 0
回答已采纳
2
回答
关于三角洲
湖
的困惑
据我所知,它为您的
数据
存储增加了ACID事务,并通过增量引擎提高了查询性能。如果是这样,为什么我们还需要其他不支持ACID事务的
数据
湖
呢?Delta lakes声称将
数据
湖
和
数据
仓库这两个世界结合在一起,我们知道,由于它目前对操作的支持,它还不能取代传统的
数据
仓库。但它应该取代
数据
湖
吗?为什么需要两份
数据
副本-一份在
数据
湖
中,另一份在德尔塔
湖
中?
浏览 21
提问于2020-07-30
得票数 0
回答已采纳
2
回答
数据
湖
中的
数据
保留策略
我是这个Azure
数据
湖
世界的新手。我正在寻找任何必要的先决条件和注意事项,以便使用蔚蓝
数据
湖
.我找到了一个很好的链接,并发现安静有用。因此,在任何
数据
湖
中,对于
数据
保留策略(归档、清除),我们是否需要遵循特定和基本的考虑?
浏览 1
修改于2020-01-08
得票数 2
回答已采纳
1
回答
在Server 2016版本中创建“外部
数据
源”时出错,试图将本地Server与Azure
数据
湖
连接
我试图用Polybase的概念将SQL Server与Azure
数据
湖
连接起来。, CREDENTIAL = [ADL_User
3
]错误:Please revise the following 采取的步骤如下: 添加Azure
数据
湖
在Azure
浏览 0
提问于2018-12-04
得票数 2
3
回答
如何将
数据
从AWS S
3
加载到Snowflake Internal Stage
我们正在尝试从亚马逊网络服务S
3
(外部阶段)获取
数据
,并将其加载到雪花内部阶段。Snowflake应该作为我们的
数据
湖
,可以减少我们从AWS使用的存储量。有没有内置的功能可以从外部stage -->内部stage传输
数据
? 目标是将
数据
加载到内部Snowflake阶段,然后从AWS中删除
数据
。我们希望Snowflake成为
数据
湖
。
浏览 49
修改于2020-07-28
得票数 0
第 2 页
第 3 页
第 4 页
第 5 页
第 6 页
第 7 页
第 8 页
第 9 页
第 10 页
第 11 页
点击加载更多
领券