首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据成神之路

    Dive into Delta Lake | Delta Lake 尝鲜

    Delta Lake 还提供内置数据版本控制,以便轻松回滚。 为什么需要Delta Lake 现在很多公司内部数据架构中都存在数据湖,数据湖是一种大型数据存储库和处理引擎。 这就是 Delta Lake 产生的背景。 Delta Lake特性 Delta Lake 很好地解决了上述问题,以简化我们构建数据湖的方式。 ? 这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件,并且在读取数据时非常高效。 数据版本 Delta Lake 允许用户读取表或目录之前的快照。 由于 Delta Lake 以文件级粒度跟踪和修改数据,因此它比读取和覆盖整个分区或表更有效。 数据异常处理 Delta Lake 还将支持新的 API 来设置表或目录的数据异常。 时间旅行允许您查询 Delta Lake 表的旧快照。

    1.5K10发布于 2020-11-06
  • 来自专栏HansBug's Lab

    1751: Lake Counting

    1751: [Usaco2005 qua]Lake Counting Time Limit: 5 Sec  Memory Limit: 64 MB Submit: 190  Solved: 150 [Submit

    64860发布于 2018-04-10
  • 来自专栏ApacheHudi

    Data Lake架构揭秘

    Data Lake概念已经存在了一段时间。但是,我还是看到很多组织结构很难理解这个概念,因为他们对其的理解仍然禁锢在传统的企业数据仓库范式中。 本文将深入研究Data Lake架构模式的概念并设计一个架构模式。 2. 传统数仓(DWH)架构 ? 传统的企业DWH架构模式已经使用了很多年。 用一个类比来解释Data Lake的概念。 游览大湖总是一种非常愉快的感觉。湖中的水以其最纯净的形式存在,不同的人在湖上进行不同的活动。 数据湖与数据仓库或数据集市进行如下比较: Data Lake以最原始的形式存储数据,可以满足多个利益相关者的需求,也可以用于打包数据,以供最终用户使用。 Data Lake支持各种用户。 分析项目确实是敏捷项目。这些项目的本质是,一旦你看到输出,便会思考更多并想要更多。Data Lake本质上是敏捷的。

    66930发布于 2021-04-13
  • 来自专栏牛肉圆粉不加葱

    Databricks Delta Lake 介绍

    一、Delta Lake 特性 ACID 事务:Delta Lake 提供多个写操作之间的 ACID 事务。 这使得 Delta Lake 能够在固定的时间内列出大型目录中的文件,并且在读取数据时非常高效 数据版本控制和时间旅行:Delta Lake 允许用户读取表或目录先前的快照。 由于 Delta Lake 在文件粒度上跟踪和修改数据,因此,比读取和覆写整个分区或表要高效得多 数据期望(即将到来):Delta Lake 还将支持一个新的 API,用于设置表或目录的数据期望。 时间旅行允许您查询 Delta Lake 表的旧快照。 如果更改 Delta Lake 表 schema。 例如,如果向 Delta Lake表添加新列,则必须确保此列在该基表之上构建的相应视图中可用。

    2.7K30发布于 2019-05-15
  • 来自专栏祝威廉

    认识 Delta Lake

    但是到19年整个局势开发生变化,向下走是存储层Delta Lake耀眼夺目,解决了原先数仓的诸多痛点,让数仓进化到数据湖。 Delta Lake单刀直入,直接解决存储层的问题,带来的益处就是极大的简化我们的架构设计,简化运维成本,降低服务器成本。 Delta Lake 生之逢时 天下苦传统数仓久已,Delta Lake 横空出世,那么它是如何解决上面的存储层问题呢? Delta Lake 其实只是一个Lib库 Delta Lake 是一个lib 而不是一个service,不同于HBase,他不需要单独部署,而是直接依附于计算引擎的。目前只支持Spark引擎。 Delta Lake到底是什么 Parquet文件 + Meta 文件 + 一组操作的API = Delta Lake. 所以Delta没啥神秘的,和parquet没有任何区别。

    92040编辑于 2022-04-25
  • 来自专栏ypw

    Lake Counting (POJ No.2386)

    题意:有一个M*N的圈子,雨后有积水,然后八个方位相联通的被认为是连接在一起的。请求出圈子里共有多少个水洼。

    35710发布于 2020-09-14
  • 来自专栏容器计算

    Delta Lake 学习笔记(三)

    文章目录 1 Overview 2 QucikStart 走读 2.1 Set up Apache Spark with Delta Lake 2.2 Create a table 2.3 Update 大家可以打开 Delta Lake 官网查看 QuickStart,按照文档迅速过一次。 Lake 的功能。 按照文档介绍,Delta Lake 是需要 Spark 2.4.2 或以上版本的,所以大家最好去官网下载一个预先编译的 Spark 包。 ? 3 Summary 以上就是 Delta Lake 官网的 Qucik Start 的内容,建议大家可以按照以上内容来快速测试一下。

    1.1K20发布于 2020-08-05
  • 来自专栏NLP小白的学习历程

    Lake Counting(POJ No.2386)

    Lake Counting(POJ No.2386) 原题链接:http://poj.org/problem?id=2386 POJ已通过 思路为采用深度优先搜索,循环遍历判断各个方位有没有水。

    43720发布于 2020-11-13
  • 来自专栏容器计算

    Delta Lake 学习笔记(一)

    文章目录 1 Overview 2 导入 Delta Lake 到 IDEA 3 Summary 1 Overview 今天 Spark + AI Summit 2019 宣布开源了 Delta Lake 2 导入 Delta Lake 到 IDEA Delta Lake 是用 sbt 构建的项目,所以想要自行打包构建,大家还是需要熟悉一下 sbt 的。 后面会讲讲项目的结构和看看 Delta Lake 是如何实现 ACID 事务,和乐观锁以及写入数据提供的一致性读取等功能。

    1.4K30发布于 2020-08-05
  • 来自专栏容器计算

    Delta Lake 学习笔记(二)

    文章目录 1 Overview 2 Delta Lake 依赖了什么 jar 包 3 Summary 1 Overview 笔者认为,在研究一个开源项目的之前,看看起依赖管理的文件,比如说 Maven 2 Delta Lake 依赖了什么 jar 包 查看 build.sbt 文件,可以看到 Delta Lake 确实是构建于 Spark 之上的,因为他除了依赖 Spark 几个依赖外,没有再额外引入一些 3 Summary Delta Lake 是构建于 Spark 之上的项目,所以依赖都关于 Spark 的其他 lib。 由于 Delta Lake 并没有依赖更多的项目(Spark 其实已经很多了…),所以后面我们去探索代码的时候,只要有 Spark 基础的同学,应该都可以很快上手。

    99120发布于 2020-08-05
  • 来自专栏HansBug's Lab

    3385: Lake Counting 数池塘

    3385: [Usaco2004 Nov]Lake Counting 数池塘 Time Limit: 1 Sec  Memory Limit: 128 MB Submit: 22  Solved: 21

    67660发布于 2018-04-11
  • 来自专栏机器学习与自然语言处理

    Lake Counting(POJ-2386)

    题目链接: http://poj.org/problem?id=2386 题目大意: 计算出相连的'W'有多少块 所需算法: 深度优先搜索(DFS) 主要思路: 从任意的W开始,不停地把邻接的8个点用

    1.1K70发布于 2018-01-24
  • 来自专栏祝威廉

    Delta Lake 目录结构探秘

    key=a,key=b有没有非常熟悉的感觉?是不是和hive里分区表非常类似?没错,他就是一个分区字段。进去看看其实就是一些parquet文件。如果delta表没有分区字段,那么这些parquet文件都会在根目录里。

    75210编辑于 2022-07-21
  • 来自专栏杨熹的专栏

    Gym 的 Frozen Lake 环境介绍

    Frozen Lake 是指在一块冰面上有四种state: S: initial stat 起点 F: frozen lake 冰湖 H: hole 窟窿 G: the goal 目的地 agent break 学习资料: https://www.google.com/amp/s/reinforcementlearning4.fun/2019/06/16/gym-tutorial-frozen-lake

    2.5K41发布于 2020-03-20
  • 来自专栏飞总聊IT

    Delta Lake 2.0:Databricks的急病乱投医???

    Delta Lake最初为什么要开源,核心问题是开源项目里面起来了一个叫做Iceberg的东西。这东西,本质上来说,就是Delta Lake的竞品。 事实上也不难证明,在实际使用过程中,如果涉及到metadata的一些操作,Iceberg比Delta Lake理论和实践都应该要慢很多。 问题是,Delta Lake面临的局面和Spark面临的局面不可同日而语。区别大了去了。 起码Delta Lake在开源社区的发展,并没有成为那种如火如荼的一统江湖的架势。 我想Databricks要是2019年开源Delta Lake的时候就毫不犹豫的全部开源,而不是留一些自己付费才能有的功能的话,现在Delta Lake的开源项目发展肯定强太多了。

    87210编辑于 2022-07-01
  • 来自专栏容器计算

    Delta Lake 学习笔记(四) - 名词解释

    2.1 ACID 2.2 SNAPSHOT 2.3 MetaData 2.4 事务日志 2.5 CheckSum 2.6 Protocol 3 Summary 1 Overview 在了解 Delta Lake 后面会专门解释,前面文章也介绍过,这个是 Delta Lake 把对数据/表的操作的记录日志。 3 Summary 本文主要介绍了几个 Delta Lake 里需要知道的一些概念,尽管并不是些什么新概念,但是对于初学者还是很有必要去了解一下的(比如我…),后面会结合源码进行逐一的分析。

    60520发布于 2020-08-05
  • 来自专栏Hadoop实操

    Delta Lake

    上表中其他的项目都是Apache项目,Delta Lake最近才成为Linux基金会的子项目。

    2.2K20发布于 2020-05-20
  • 来自专栏祝威廉

    Delta Lake的竞争对手Hudi(Alpha版)

    Delta Lake肯定不是第一个数据湖产品。对于存储这块,CarbonData也一直有雄心。不过今天我要重点讲讲Delta Lake 和Hudi的对比。

    55710编辑于 2022-07-21
  • 来自专栏芯智讯

    英特尔部分Raptor Lake处理器将集成VPU,14代Meteor Lake将全面标配

    据悉该技术将首先在部分第 13 代 Raptor Lake处理器上采用,而后续的 14 代 Meteor Lake将会全面集成。 英特尔表示,除了广泛集成 VPU 的 Meteor Lake 产品线,他们还将与 OEM 伙伴合作,在部分 Raptor Lake 产品引入 VPU 设计,这意味着部分厂商的笔记本电脑有望支持 VPU。 此外,集成VPU的 Raptor Lake 产品只会出现在联想、惠普、戴尔这种头部大厂的笔记本电脑中,这将成为 ISV 在技术完全集成后,为 Meteor Lake CPU 做好准备的关键推动力。 之前的爆料也显示,14 代 Meteor Lake 将采用三混合核心架构,包括 P-Cores、E-Cores 和全新的 LP E-Cores。 据介绍,Meteor Lake 芯片上将会有两个 LP-E 内核,它们也只存在于 SOC Tile 上,这意味着这些可能将是 VPU 使用的内核。

    35830编辑于 2022-09-27
  • 来自专栏飞总聊IT

    Delta Lake 2.0正式发布,Databricks能赢吗?

    新粉请关注我的公众号 我收到了一封邮件,具体内容截图如下: 简单说,就是官宣Delta Lake 2.0正式发布了。这个距离Databricks的年度大会上面宣布,也有些时日了。 Delta Lake2.0开源了,不知道下面会不会迎来春天呢? 我觉得吧,如果2019年能够大大方方把这些都开源了,估计2022年也不一定有Iceberg什么事情了。

    85710编辑于 2022-08-29
领券