搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

2回答

传统数据湖与AWS湖形成

我一直在为客户建立数据湖，在那里我们将数据从onprem或任何其他来源加载到S3 (一个数据湖)中。我们将在这些原始数据上创建一个AWS Glue目录来创建模式。下一步是使用EMR或AWS Glue进行数据清理，将转换后的数据加载到RDS / REDSHIFT / S3中作为最终目标。分析人员、其他用户将使用IAM服务提供所需的数据/ S3桶访问，用于

浏览 0修改于2021-04-28得票数 3

2回答

在Trigger.Once中使用Spark Structured

有一个CSV文件的数据湖，这些文件全天都在更新。我正在尝试使用Trigger.Once功能创建一个Spark Structured作业，以定期将新数据写入到Parquet数据湖中的CSV数据湖中。这就是我所拥有的： .readStream .csv("s3a://csv-data-lake-files") 下面的命令将所有数据写入到

浏览 13修改于2018-10-27得票数 12

1回答

我们希望从这个表中创建一个数据湖，用于历史数据、模型培训和分析洞察力。我们想保证30分钟的数据湖数据“新鲜”w.r.t。原来的桌子。但是，我对什么是一个很好的体系结构感到困惑:我对数据湖的理解是，您应该使用一个存储服务(即S3)来存储没有处理的原始数据。然后，执行ETL工作，在转换、处理和过滤数据(例如，使用Glue)之前，将其用于任何应用程序。，但我有疑问：，这是否意味着我们必须每30分钟将Dy

浏览 7修改于2021-08-13得票数 1

回答已采纳

1回答

气流任务分离

假设有10个不同的REST API端点，我需要为每个查询收集不同的数据有效负载响应。每个数据响应都需要写入数据湖存储。我原本希望通过以下方式来实现：任务#1获取有效负载1。任务#2将有效负载1写入数据湖的中转区。任务#3获取有效载荷2。任务#4将有效负载2写入数据湖的中转区。……直到所有的有效载荷都被写入数据湖。问题是我如何将数据有效负载从例如任务1(它得到它)传递到需要写入它

浏览 48修改于2021-10-07得票数 0

回答已采纳

1回答

在Azure数据工厂中，是否可以在不使用数据流的情况下控制大量输出文件的文件名？

例如，我可以使用数据工厂中的复制活动将1000万条记录客户表复制到Azure数据湖中，并在源选项中使用“动态范围”分区选项。我的理解是，这将导致数据工厂将数据分解为湖中的许多文件。使用此方法，如何强制湖中输出文件的命名约定？例如，每个文件名都以'cust_‘开头，这意味着文件将被称为cust_1、cust_2、cust_3、cust_4等。

浏览 3提问于2021-06-17得票数 1

回答已采纳

2回答

Azure数据工厂- Azure数据湖Gen1 access

一个文件正在由Logic添加到V2 I有一个数据工厂访问‘1’来处理该文件。在添加文件之后，当我尝试调试数据工厂时，我会收到以下错误。File path: 'Stem/Benchmark/DB_0_Measures_1_05052020 - Copy - Copy - rounded, date changed - Copy (3).到目前为止尝试过：-为数据工厂及其子女在数据湖中分配权限。 children.Added数据工厂作为

浏览 5提问于2020-05-06得票数 0

1回答

在AWS中，具有HDFS或S3的数据池之间有什么区别？

我需要在AWS上构建一个数据湖，但是我不知道S3和HDFS到底有什么不同。我在网上找到了一些答案，但我仍然不明白真正的区别。我还需要知道是否有人在AWS中拥有HDFS和S3的数据湖架构。

浏览 2修改于2020-05-25得票数 1

回答已采纳

1回答

使用雅典娜时，基于分区Id的s3细粒度访问控制是可能的吗？

我们使用S3作为我们的数据湖，它以customerId作为partitionId。雅典娜被用来查询这个数据湖。在DDB和S3中查询数据时，我们使用细粒度访问控制(使用SDK).

浏览 12提问于2022-09-22得票数 0

1回答

在雅典娜查询中获取S3文件创建/更新日期

有没有内置的雅典娜函数可以在查询结果中显示给定行的底层S3文件创建/修改日期？我们有一个具有许多不同文件格式的大型数据湖，很难将这些信息添加到所有这些数据湖中。

浏览 3修改于2021-07-07得票数 0

1回答

从onprem到数据湖存储的azure数据湖增量复制任务

我在prem servefr上有3个文件夹，每个文件夹都有几个文件。我的目标是以增量方式将文件从onprem服务器加载到数据湖中，因此，一旦我们下次将文件复制到数据湖中，只需移动新文件。

浏览 0提问于2018-04-17得票数 0

1回答

Kappa体系结构是否使用数据湖？

Kukreja在“Apache、Delta湖和Lakehouse的数据工程”中说，Kappa体系结构没有数据湖。微软在 (见图)中提到了一家“长期商店”，但没有透露它的实际情况。它使用这些数据来“重新计算”。对我来说，这是一个数据湖。

浏览 10修改于2022-07-22得票数 0

回答已采纳

2回答

增量-五旬节数据集成(PDI)

我开始使用宾得数据集成，我打算使用它来用服务器上的数据更新数据湖。但是，我只需要添加数据湖中还不存在(增量)的数据。SQL示例：我不知道是否可以通过sql、filter或其他方式实现这个增量。

浏览 4提问于2020-11-10得票数 0

回答已采纳

1回答

是否跟踪数据池中数据的更改？

最近我发现了数据湖世界，我计划用ADL建立一个数据湖。我不确定的一件事是数据湖应该如何跟踪随时间变化/处理与源不同版本的更改。我遇到过这样的站点，声称数据湖按原样提供数据，其他状态是数据应该是时间戳，或者文件夹结构应该反映时间戳。干杯!

浏览 0提问于2019-07-24得票数 0

回答已采纳

1回答

如何从Azure数据湖转换，将数据按日期文件夹分区到delta湖

我拥有一个由datetime嵌套文件夹划分数据的蔚蓝数据湖gen2。我想向我的团队提供增量湖格式，但是我不确定我是否应该创建一个新的存储帐户，将数据复制成增量格式，或者将当前的蔚蓝数据湖转换为增量湖格式是否是最佳实践。有人能提供关于这件事的任何建议吗？

浏览 2修改于2022-10-05得票数 0

回答已采纳

2回答

如何使用数据工厂截断Dynamics 365实体(并复制到Azure数据湖)？

我目前正在使用数据工厂将实体从Dynamics 365批量复制到Azure数据湖。实体每24小时保存为数据湖中的CSV文件。我希望将实体截断为新数据，并附加到数据湖中已经存在的文件中，而不是批量复制。我认为这是SQL数据库的常见操作，但这可以在Dynamics 365和数据湖之间完成吗？

浏览 14提问于2019-05-01得票数 1

2回答

使用Azure数据工厂不分阶段地将数据从Azure数据湖复制到SnowFlake

Azure Data将数据从2复制到SnowFlake的所有示例都使用一个存储帐户作为平台。如果没有配置这个阶段(如图所示)，即使我的源是Azure数据湖中的csv文件，我也会在dataset中得到此错误--“只有当源数据集为DelimitedText、Parquet、JSON以及AzureBlob存储或S3 S3链接服务时，才支持将数据直接复制到雪花片，对于其他数据集或链接服务，请启用暂存”。如何在没有外部存储帐户的情况下使用data的复制<e

浏览 5修改于2021-07-27得票数 0

回答已采纳

2回答

关于三角洲湖的困惑

据我所知，它为您的数据存储增加了ACID事务，并通过增量引擎提高了查询性能。如果是这样，为什么我们还需要其他不支持ACID事务的数据湖呢？Delta lakes声称将数据湖和数据仓库这两个世界结合在一起，我们知道，由于它目前对操作的支持，它还不能取代传统的数据仓库。但它应该取代数据湖吗？为什么需要两份数据副本-一份在数据湖中，另一份在德尔塔湖中？

浏览 21提问于2020-07-30得票数 0

回答已采纳

2回答

数据湖中的数据保留策略

我是这个Azure数据湖世界的新手。我正在寻找任何必要的先决条件和注意事项，以便使用蔚蓝数据湖.我找到了一个很好的链接，并发现安静有用。因此，在任何数据湖中，对于数据保留策略(归档、清除)，我们是否需要遵循特定和基本的考虑？

浏览 1修改于2020-01-08得票数 2

回答已采纳

1回答

在Server 2016版本中创建“外部数据源”时出错，试图将本地Server与Azure数据湖连接

我试图用Polybase的概念将SQL Server与Azure数据湖连接起来。, CREDENTIAL = [ADL_User3]错误：Please revise the following 采取的步骤如下：添加Azure数据湖在Azure

浏览 0提问于2018-12-04得票数 2

3回答

如何将数据从AWS S3加载到Snowflake Internal Stage

我们正在尝试从亚马逊网络服务S3 (外部阶段)获取数据，并将其加载到雪花内部阶段。Snowflake应该作为我们的数据湖，可以减少我们从AWS使用的存储量。有没有内置的功能可以从外部stage -->内部stage传输数据？目标是将数据加载到内部Snowflake阶段，然后从AWS中删除数据。我们希望Snowflake成为数据湖。

浏览 49修改于2020-07-28得票数 0

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

传统数据湖与AWS湖形成

在Trigger.Once中使用Spark Structured

从DynamoDB表创建数据池

气流任务分离

在Azure数据工厂中，是否可以在不使用数据流的情况下控制大量输出文件的文件名？

Azure数据工厂- Azure数据湖Gen1 access

在AWS中，具有HDFS或S3的数据池之间有什么区别？

使用雅典娜时，基于分区Id的s3细粒度访问控制是可能的吗？

在雅典娜查询中获取S3文件创建/更新日期

从onprem到数据湖存储的azure数据湖增量复制任务

Kappa体系结构是否使用数据湖？

增量-五旬节数据集成(PDI)

是否跟踪数据池中数据的更改？

如何从Azure数据湖转换，将数据按日期文件夹分区到delta湖

如何使用数据工厂截断Dynamics 365实体(并复制到Azure数据湖)？

使用Azure数据工厂不分阶段地将数据从Azure数据湖复制到SnowFlake

关于三角洲湖的困惑

数据湖中的数据保留策略

在Server 2016版本中创建“外部数据源”时出错，试图将本地Server与Azure数据湖连接

如何将数据从AWS S3加载到Snowflake Internal Stage

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐