搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏大数据成神之路
Dive into Delta Lake | Delta Lake 尝鲜
Delta Lake 还提供内置数据版本控制，以便轻松回滚。为什么需要Delta Lake 现在很多公司内部数据架构中都存在数据湖，数据湖是一种大型数据存储库和处理引擎。这就是 Delta Lake 产生的背景。 Delta Lake特性 Delta Lake 很好地解决了上述问题，以简化我们构建数据湖的方式。 ? 这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件，并且在读取数据时非常高效。数据版本 Delta Lake 允许用户读取表或目录之前的快照。由于 Delta Lake 以文件级粒度跟踪和修改数据，因此它比读取和覆盖整个分区或表更有效。数据异常处理 Delta Lake 还将支持新的 API 来设置表或目录的数据异常。时间旅行允许您查询 Delta Lake 表的旧快照。
1.5K10发布于 2020-11-06
来自专栏HansBug's Lab
1751: Lake Counting
1751: [Usaco2005 qua]Lake Counting Time Limit: 5 Sec Memory Limit: 64 MB Submit: 190 Solved: 150 [Submit
64860发布于 2018-04-10
来自专栏ApacheHudi
Data Lake架构揭秘
Data Lake概念已经存在了一段时间。但是，我还是看到很多组织结构很难理解这个概念，因为他们对其的理解仍然禁锢在传统的企业数据仓库范式中。本文将深入研究Data Lake架构模式的概念并设计一个架构模式。 2. 传统数仓(DWH)架构 ? 传统的企业DWH架构模式已经使用了很多年。用一个类比来解释Data Lake的概念。游览大湖总是一种非常愉快的感觉。湖中的水以其最纯净的形式存在，不同的人在湖上进行不同的活动。数据湖与数据仓库或数据集市进行如下比较： Data Lake以最原始的形式存储数据，可以满足多个利益相关者的需求，也可以用于打包数据，以供最终用户使用。 Data Lake支持各种用户。分析项目确实是敏捷项目。这些项目的本质是，一旦你看到输出，便会思考更多并想要更多。Data Lake本质上是敏捷的。
66930发布于 2021-04-13
来自专栏牛肉圆粉不加葱
Databricks Delta Lake 介绍
一、Delta Lake 特性 ACID 事务：Delta Lake 提供多个写操作之间的 ACID 事务。这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件，并且在读取数据时非常高效数据版本控制和时间旅行：Delta Lake 允许用户读取表或目录先前的快照。由于 Delta Lake 在文件粒度上跟踪和修改数据，因此，比读取和覆写整个分区或表要高效得多数据期望（即将到来）：Delta Lake 还将支持一个新的 API，用于设置表或目录的数据期望。时间旅行允许您查询 Delta Lake 表的旧快照。如果更改 Delta Lake 表 schema。例如，如果向 Delta Lake表添加新列，则必须确保此列在该基表之上构建的相应视图中可用。
2.7K30发布于 2019-05-15
来自专栏祝威廉
认识 Delta Lake
但是到19年整个局势开发生变化，向下走是存储层Delta Lake耀眼夺目，解决了原先数仓的诸多痛点，让数仓进化到数据湖。 Delta Lake单刀直入，直接解决存储层的问题，带来的益处就是极大的简化我们的架构设计，简化运维成本，降低服务器成本。 Delta Lake 生之逢时天下苦传统数仓久已，Delta Lake 横空出世，那么它是如何解决上面的存储层问题呢？ Delta Lake 其实只是一个Lib库 Delta Lake 是一个lib 而不是一个service,不同于HBase,他不需要单独部署，而是直接依附于计算引擎的。目前只支持Spark引擎。 Delta Lake到底是什么 Parquet文件 + Meta 文件 + 一组操作的API = Delta Lake. 所以Delta没啥神秘的，和parquet没有任何区别。
92040编辑于 2022-04-25
来自专栏ypw
Lake Counting （POJ No.2386）
题意：有一个M*N的圈子，雨后有积水，然后八个方位相联通的被认为是连接在一起的。请求出圈子里共有多少个水洼。
35710发布于 2020-09-14
来自专栏容器计算
Delta Lake 学习笔记（三）
文章目录 1 Overview 2 QucikStart 走读 2.1 Set up Apache Spark with Delta Lake 2.2 Create a table 2.3 Update 大家可以打开 Delta Lake 官网查看 QuickStart，按照文档迅速过一次。 Lake 的功能。按照文档介绍，Delta Lake 是需要 Spark 2.4.2 或以上版本的，所以大家最好去官网下载一个预先编译的 Spark 包。 ? 3 Summary 以上就是 Delta Lake 官网的 Qucik Start 的内容，建议大家可以按照以上内容来快速测试一下。
1.1K20发布于 2020-08-05
来自专栏NLP小白的学习历程
Lake Counting（POJ No.2386）
Lake Counting（POJ No.2386）原题链接：http://poj.org/problem?id=2386 POJ已通过思路为采用深度优先搜索，循环遍历判断各个方位有没有水。
43720发布于 2020-11-13
来自专栏容器计算
Delta Lake 学习笔记（一）
文章目录 1 Overview 2 导入 Delta Lake 到 IDEA 3 Summary 1 Overview 今天 Spark + AI Summit 2019 宣布开源了 Delta Lake 2 导入 Delta Lake 到 IDEA Delta Lake 是用 sbt 构建的项目，所以想要自行打包构建，大家还是需要熟悉一下 sbt 的。后面会讲讲项目的结构和看看 Delta Lake 是如何实现 ACID 事务，和乐观锁以及写入数据提供的一致性读取等功能。
1.4K30发布于 2020-08-05
来自专栏容器计算
Delta Lake 学习笔记（二）
文章目录 1 Overview 2 Delta Lake 依赖了什么 jar 包 3 Summary 1 Overview 笔者认为，在研究一个开源项目的之前，看看起依赖管理的文件，比如说 Maven 2 Delta Lake 依赖了什么 jar 包查看 build.sbt 文件，可以看到 Delta Lake 确实是构建于 Spark 之上的，因为他除了依赖 Spark 几个依赖外，没有再额外引入一些 3 Summary Delta Lake 是构建于 Spark 之上的项目，所以依赖都关于 Spark 的其他 lib。由于 Delta Lake 并没有依赖更多的项目（Spark 其实已经很多了…），所以后面我们去探索代码的时候，只要有 Spark 基础的同学，应该都可以很快上手。
99120发布于 2020-08-05
来自专栏HansBug's Lab
3385: Lake Counting 数池塘
3385: [Usaco2004 Nov]Lake Counting 数池塘 Time Limit: 1 Sec Memory Limit: 128 MB Submit: 22 Solved: 21
67660发布于 2018-04-11
来自专栏机器学习与自然语言处理
Lake Counting(POJ-2386)
题目链接： http://poj.org/problem?id=2386 题目大意：计算出相连的'W'有多少块所需算法：深度优先搜索（DFS）主要思路：从任意的W开始，不停地把邻接的8个点用
1.1K70发布于 2018-01-24
来自专栏祝威廉
Delta Lake 目录结构探秘
key=a,key=b有没有非常熟悉的感觉？是不是和hive里分区表非常类似？没错，他就是一个分区字段。进去看看其实就是一些parquet文件。如果delta表没有分区字段，那么这些parquet文件都会在根目录里。
75210编辑于 2022-07-21
来自专栏杨熹的专栏
Gym 的 Frozen Lake 环境介绍
Frozen Lake 是指在一块冰面上有四种state： S: initial stat 起点 F: frozen lake 冰湖 H: hole 窟窿 G: the goal 目的地 agent break 学习资料： https://www.google.com/amp/s/reinforcementlearning4.fun/2019/06/16/gym-tutorial-frozen-lake
2.5K41发布于 2020-03-20
来自专栏飞总聊IT
Delta Lake 2.0：Databricks的急病乱投医？？？
Delta Lake最初为什么要开源，核心问题是开源项目里面起来了一个叫做Iceberg的东西。这东西，本质上来说，就是Delta Lake的竞品。事实上也不难证明，在实际使用过程中，如果涉及到metadata的一些操作，Iceberg比Delta Lake理论和实践都应该要慢很多。问题是，Delta Lake面临的局面和Spark面临的局面不可同日而语。区别大了去了。起码Delta Lake在开源社区的发展，并没有成为那种如火如荼的一统江湖的架势。我想Databricks要是2019年开源Delta Lake的时候就毫不犹豫的全部开源，而不是留一些自己付费才能有的功能的话，现在Delta Lake的开源项目发展肯定强太多了。
87210编辑于 2022-07-01
来自专栏容器计算
Delta Lake 学习笔记（四) - 名词解释
2.1 ACID 2.2 SNAPSHOT 2.3 MetaData 2.4 事务日志 2.5 CheckSum 2.6 Protocol 3 Summary 1 Overview 在了解 Delta Lake 后面会专门解释，前面文章也介绍过，这个是 Delta Lake 把对数据/表的操作的记录日志。 3 Summary 本文主要介绍了几个 Delta Lake 里需要知道的一些概念，尽管并不是些什么新概念，但是对于初学者还是很有必要去了解一下的（比如我…），后面会结合源码进行逐一的分析。
60520发布于 2020-08-05
来自专栏Hadoop实操
Delta Lake
上表中其他的项目都是Apache项目，Delta Lake最近才成为Linux基金会的子项目。
2.2K20发布于 2020-05-20
来自专栏祝威廉
Delta Lake的竞争对手Hudi（Alpha版）
Delta Lake肯定不是第一个数据湖产品。对于存储这块，CarbonData也一直有雄心。不过今天我要重点讲讲Delta Lake 和Hudi的对比。
55710编辑于 2022-07-21
来自专栏芯智讯
英特尔部分Raptor Lake处理器将集成VPU，14代Meteor Lake将全面标配
据悉该技术将首先在部分第 13 代 Raptor Lake处理器上采用，而后续的 14 代 Meteor Lake将会全面集成。英特尔表示，除了广泛集成 VPU 的 Meteor Lake 产品线，他们还将与 OEM 伙伴合作，在部分 Raptor Lake 产品引入 VPU 设计，这意味着部分厂商的笔记本电脑有望支持 VPU。此外，集成VPU的 Raptor Lake 产品只会出现在联想、惠普、戴尔这种头部大厂的笔记本电脑中，这将成为 ISV 在技术完全集成后，为 Meteor Lake CPU 做好准备的关键推动力。之前的爆料也显示，14 代 Meteor Lake 将采用三混合核心架构，包括 P-Cores、E-Cores 和全新的 LP E-Cores。据介绍，Meteor Lake 芯片上将会有两个 LP-E 内核，它们也只存在于 SOC Tile 上，这意味着这些可能将是 VPU 使用的内核。
35830编辑于 2022-09-27
来自专栏飞总聊IT
Delta Lake 2.0正式发布，Databricks能赢吗？
新粉请关注我的公众号我收到了一封邮件，具体内容截图如下：简单说，就是官宣Delta Lake 2.0正式发布了。这个距离Databricks的年度大会上面宣布，也有些时日了。 Delta Lake2.0开源了，不知道下面会不会迎来春天呢？我觉得吧，如果2019年能够大大方方把这些都开源了，估计2022年也不一定有Iceberg什么事情了。
85710编辑于 2022-08-29

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

Dive into Delta Lake | Delta Lake 尝鲜

1751: Lake Counting

Data Lake架构揭秘

Databricks Delta Lake 介绍

认识 Delta Lake

Lake Counting （POJ No.2386）

Delta Lake 学习笔记（三）

Lake Counting（POJ No.2386）

Delta Lake 学习笔记（一）

Delta Lake 学习笔记（二）

3385: Lake Counting 数池塘

Lake Counting(POJ-2386)

Delta Lake 目录结构探秘

Gym 的 Frozen Lake 环境介绍

Delta Lake 2.0：Databricks的急病乱投医？？？

Delta Lake 学习笔记（四) - 名词解释

Delta Lake

Delta Lake的竞争对手Hudi（Alpha版）

英特尔部分Raptor Lake处理器将集成VPU，14代Meteor Lake将全面标配

Delta Lake 2.0正式发布，Databricks能赢吗？

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐