首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏鸿的学习笔记

    现代数据平台

    数据管理很多年前就有了,比如很多公司会拿Excel或者是文本存储数据仓库里所有的表结构,以方便大家查询。但是现代数据平台与传统的数据管理有什么区别呢? 它是一个平台,可大规模集成、处理和提供丰富的数据,以应对许多复杂的组织数据挑战。 为什么需要现代数据平台? “为什么传统的数据管理解决方案不够好?” 那么,为什么需要现代数据平台呢?因为您的数据可能与您的数据一样大和一样复杂,因此应该受到同样的尊重。 如何构建出色的现代数据平台? 简而言之,一个优秀的数据平台看起来与一个优秀的数据平台非常相似。 总结 这篇文章可以视为一个新概念的开端,阐述了领英的数据团队对于现代数据平台的理解,算是对传统的数据管理很好补充。

    82931编辑于 2022-03-11
  • 来自专栏全栈程序员必看

    数据平台数据管理

    概念解释 1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。 2,大数据平台涉及的数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是数据,除此之外的数据都是数据。 为什么要做数据管理 1,管理数据的好处——有助于用户更高效地分析数据,有助于系统和业务的优化,有助于数据的安全管控,有助于数据生命周期的管理,有助于任务问题的排查,有助于数据质量的保证。 2,怎样发挥数据的价值——数据信息通过服务的形式(例如REST接口)提供给上下游系统使用。 哪些数据纳入数据管理 这个问题也就是数据管理到底是管理什么。 对大数据开发平台来说,常见的数据包括以下6点: 1,数据表的结构schema信息 (1) SQL或者NoSQL中的表视图信息,例如MySQL中可以通过SHOW CREATE TABLE table_name

    1.2K10编辑于 2022-08-24
  • 来自专栏大数据杂货铺

    DataHub数据治理平台架构

    1.DataHub架构概述 DataHub 是第三代数据平台,支持为现代数据堆栈构建的数据发现、协作、治理和端到端可观察性。 1.1.2.基于流的实时数据平台 DataHub 的数据基础设施是面向流的,允许数据的更改在几秒钟内在平台内进行通信和反映。 2.DataHub组件概述 DataHub 平台由下图所示的组件组成。 2.1.数据存储 数据存储负责存储构成数据图的实体和方面。 2.2.数据模型 数据模型是定义构成数据图的实体和方面的形状以及它们之间的关系的模式。 3.1.数据变更提案:核心部分 摄取的核心部分是数据更改提案,它表示对组织的数据图进行数据更改的请求。数据更改建议可以通过 Kafka 发送,以便从源系统进行高度可扩展的异步发布。

    3.1K10编辑于 2024-01-31
  • 来自专栏杨建荣的学习笔记

    运维平台数据稽核小结

    数据库运维中的数据建设都是重中之重,如果数据不具有参考的价值,那么后续的操作都会受到影响,但是数据的建设也应该是分成几个步子来走,首先得能够收集到数据或者数据的录入,数据有了后续做规范和标准化才有依据 比如你看到的一个数据列表类似下面的形式,假设有9个数据库实例,其实这个阶段你也会犯嘀咕,要拍胸脯说数据妥妥的,那是主观片面的,我们怎么来验证,或者怎么发现数据问题来修复。 第三个阶段其实是对于未知问题的把握,比如我们的数据库中录入了100个实例,但是可能某个服务器上另外又部署了2个实例,在数据中可能遗漏了。 整个对比就是一个全面的比较,数据就是一个列表,系统中抓取的信息也是一个列表,两个列表互相对比,就能够得到一些差异的数据。 ,至于具体的信息可以进一步确认,总体来说,到了这个阶段,可以说数据是基本值得信赖的了。

    1.5K40发布于 2018-07-26
  • 数据管理平台(OpenMetaData)--数据拾取能力演示

    AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。 摘要: 本文档介绍如何在Linux服务器上部署Airflow服务,与openmetadata进行集成,后在openmetadata系统中实现对Airflow工作流数据的拾取以及数据数据的拾取。 • openmetadata:1.6.0 • airflow:2.9.1 数据管理平台基于开源项目OpenMetaData建设 数据管理平台OpenMetaData通过全面的数据采集、强大的存储与检索 、深度的分析与治理、灵活的应用与共享、高扩展性与定制化以及直观的用户体验,为企业提供了一站式的数据管理解决方案。 默认使用本机的sqlite存储,官方建议修改为 mysql 数据库 2.4.4 auth_backends 要让openmetadata支持airflow数据拾取需要修改该配置为 2.5 初始化数据

    51510编辑于 2025-11-20
  • 来自专栏大数据杂货铺

    DataHub数据管理平台概述

    这个可扩展的数据平台专为开发人员构建,以应对快速发展的数据生态系统的复杂性,并帮助数据从业者充分利用组织内数据的总价值。 以下是 DataHub 当前功能的概述。 搜索和发现 搜索数据堆栈 DataHub 的统一搜索体验可跨数据库、数据湖、BI 平台、ML 特征存储、编排工具等显示结果 追踪端到端血缘 通过跟踪跨平台数据集、ETL/ELT 管道、图表 查看数据 360一目了然 结合技术和逻辑数据,提供数据实体的 360° 视图。 创建新策略时,您将能够定义以下内容: ·策略类型- 平台(顶级 DataHub 平台权限,即管理用户、组和策略)或数据(操作所有权、标签、文档等的能力) ·资源类型- 指定资源类型,例如数据集、仪表板 通过最大限度地减少操作自定义集成管道所需的开销,可以更轻松地将数据导入 DataHub。 原文链接:https://datahubproject.io/docs/features

    1.7K10编辑于 2024-01-31
  • 来自专栏大数据-BigData

    B站大数据平台数据业务分享

    本期作者 沈汪洋 哔哩哔哩资深开发工程师 负责B站数据平台工具侧数据数据运营、数据管理等业务方向,专注于数据采集、血缘应用、数据地图、建模工具、治理工具等工具或产品功能的落地和推广。 背景介绍 数据数据平台的衍生数据,比如调度任务信息,离线hive表,实时topic,字段信息,存储信息,质量信息,热度信息等。 随着数据平台业务规模的增长,平台会沉淀大量的数据表,调度任务等数据。由于前期快速的业务发展产生大量数据管理成本,存储计算成本。 由于先前数据的散落,导致系统间数据相互耦合,边界不清楚,无法以全局视角观察分析平台数据资产,无法串联数据之间的生产加工关系。于是建设起完善可靠的数据服务成为后续满足数据发现,数据治理业务的关键。 数据基建 背景&目标 B站的数据平台数据建设之初,由于对数据的业务理解不够深入,人力投入有限,实现方案采用的是针对特定需求深度定制化。

    1.3K21编辑于 2022-06-12
  • 来自专栏大数据&分布式

    数据平台:统一数据管理

    背景介绍 数据管理包括数据采集、存储、管理及应用等关键环节,是数据治理的基础与核心。但数据管理实践过程中通常会面临数据来源众多且分散在不同系统中、数据类型多样以及数据频繁变更等问题。 更泛化理解,如图展示腾讯云数据湖的统一数据架构:支持在线数据目录和离线数据治理的统一 数据类型 数据类型按照使用领域与功能可以分为:技术数据、业务数据、操作数据、管理数据 技术数据:用于描述数据的技术信息 提供了构建元模型的语言和工具,例如包、类等 数据管理 常规的数据管理流程可分为如下5个步骤:模型定义、数据采集、数据加工、数据存储、数据应用。 统一数据ID加工:数据系统内部应生成唯一的数据ID,与原始平台数据ID形成一对一的映射关系,便于数据进行全流程追溯和适配不同平台。 ,为避免数据孤岛,企业内部通常会搭建统一数据平台,将数据汇总进行统一管理,对外提供统一服务,对内进行统一治理优化。

    3.9K97编辑于 2024-05-21
  • 来自专栏实时流式计算

    数据管理平台Datahub2022年度回顾

    数据管理平台,Datahub在2022年有了巨大的发展。近期Datahub官方做了一下2022年的回顾,我这里也挑选一些有价值的内容跟大家分享一下。 所以我也在近期开通了大数据流动的视频号。以后也会在视频号中做Datahub的一些教程,功能展示,部署演示等等作品出来。 也希望大家多多关注 大数据流动视频号。这是我坚持下去的唯一动力! 大数据流动视频号作品 《开源数据管理平台Datahub2022年回顾》 在2022年中,Datahub的活跃度有了质的提升。 用户界面与业务联系更密切,页面更加友好,同时为开发人员提供更大的灵活性来与 DataHub 的 API 进行交互,并为为各种数据工具构建强大的集成支持。

    83530编辑于 2023-03-24
  • 来自专栏大数据&分布式

    统一数据模型定义、数据采集

    背景 数据管理可分为如下5个流程步骤:模型定义、数据采集、数据加工、数据存储、数据应用。其中,模型定义是整个数据管理的前提和规范,用于定义可管理的数据范式。 数据采集是数据来源的重要途径,提供可管理的数据原料,而如何进行可扩展且高效的数据采集也是数据管理的难点之一。本文将主要针对模型定义、数据采集两个模块进行详细说明。 模型定义 模型是数据标准的M2层,是对数据M1层的抽象。更多详情可参考《数据资产管理体系与标准》。 通用数据模型:支持关系型数据源的数据治理,如MySQL、PG、Oracle等数据管理; 备注:如果需考虑文件数据等场景,需要对模型扩展。 ,获取数据信息; 对于特殊组件,如Hive,可实现组件Hook,基于PUSH主动上报 业务数据支持PUSH主动上报 异构采集触发:基于消息中间件,解耦数据的采集过程和处理过程; 数据推断 数据推断

    4.1K43编辑于 2024-05-14
  • 来自专栏实时流式计算

    一站式数据治理平台——Datahub入门宝典

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌数据管理工具Atlas之势。 国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的数据管理平台,但可参考的资料太少。 所以整理了这份文档供大家学习使用。 可能是关系数据库或 NoSQL 存储中的表、实时流数据、 AI 系统中的功能、指标平台中的指标,数据可视化工具中的仪表板。 数据生态是多样的,而 DataHub提供了可扩展的数据管理平台,可以满足数据发现,数据可观察与治理。这也极大的解决了数据复杂性的问题。 Datahub提供了丰富的数据源支持与血缘展示。 数据信息中按照数据集,仪表板,图表等类型进行了分类。 再往下看是平台信息,在这当中包括了Hive,Kafka,Airflow等平台信息的收集。 下面其实是一些搜索的统计信息。

    8.2K32编辑于 2022-01-04
  • 数据治理决策指南:数据平台自研与采购的真实成本账单

    摘要:企业在数据治理中面临数据平台“自研还是采购”的决策时,常因低估技术代差与隐性成本而陷入误区。 本文深度剖析了传统列级血缘与算子级血缘在解析精度、自动化能力上的代际鸿沟,并通过真实成本账单对比,揭示为何以算子级血缘为核心的主动数据平台是实现DataOps、自动化盘点与风险规避的确定性选择。 —— 这段来自行业观察的总结,精准地戳中了企业在数据平台建设决策中的核心矛盾。 第三代:主动数据平台。这是当前的技术前沿,以 DataOps 理念为核心,强调“主动感知、主动分析、主动预警”。其技术基石正是 算子级血缘 (Operator-level Lineage)。 核心要点决策核心是权衡“技术代差”:数据平台自研与采购的对比,本质是选择使用落后一代的“列级血缘”技术,还是直接应用前沿的“算子级血缘”技术。

    16010编辑于 2026-02-05
  • 来自专栏数字孪生元宇宙

    Omniverse:Nvidia的宇宙开发平台

    为了创造细节丰富且身临其境的 新的虚拟世界,创作者和开发者必须生成数量惊人的新数据和3D内容。但是,在使用当前的创建工具生成 3D 资产时,通常非常耗时且具有挑战性。 为了解决这个问题,开发人员需要创建对更多人来说更易于使用的新工具,这些工具利用人工智能和大数据来快速生成大量内容。此外,所有内容都需要以开放的格式存储,并实现轻松的互操作性。 image.png NVIDIA Omniverse是一个参考开发平台,从零开始构建,可通过模块化开发框架轻松扩展和自定义。 虽然最终用户和内容创建者利用Omniverse 平台来连接和加速他们的 3D 工作流程,但开发人员可以插入 Omniverse 堆栈的平台层,以便在Omniverse Kit上轻松构建扩展、应用程序和微服务 ---- 原文链接:Omniverse :开发人员的宇宙 — BimAnt

    1.2K30发布于 2021-11-21
  • 来自专栏实时计算

    数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

    数据管理平台层出不穷,但目前主流的还是Atlas、Datahub、Openmetadata三家,那么我们该如何选择呢? 本文就带大家对比一下。要了解元数据管理平台,先要从架构说起。 毫无疑问,从活跃度和发展趋势来看,Datahub都是目前最炙手可热的数据管理平台。Openmatadata更有数据治理、数据资产管理平台的样子。而Atlas和Hadoop联系紧密,也有自己优势。 相信读到这篇文章的人,大部分还是想做一个数据管理平台,以开展企业的数据治理工作。如果学习过DAMA的数据治理体系,我们应该知道做数据管理要梳理好数据源都在哪,并尽可能的管理公司的全量数据。 原生支持所有组件的数据管理平台是不存在的。但是好在数据管理平台都提供了丰富的API接口,是可以扩展的。 所以在对数据源梳理后,并结合上面数据管理平台的特性,可以做出基本的选择。 二开这里简单说一下,如果是数据管理平台+数据治理工具的组合,建议选择Datahub基本可以覆盖所有的数据管理功能,也有很好的扩展性。

    3.4K20编辑于 2024-01-10
  • 来自专栏文渊之博

    探索SQL Server数据(三):索引数据

    背景 在第一篇中我介绍了如何访问数据数据为什么在数据库里面,以及如何使用数据。介绍了如何查出各种数据库对象的在数据库里面的名字。 第二篇,我选择了触发器的主题,因为它是一个能提供很好例子的数据库对象,并且在这个对象中能够提出问题和解决问题。 本篇我将会介绍数据中的索引,不仅仅是因为它们本身很重要,更重要的是它们是很好的数据类型,比如列或者分布统计,这些不是数据中的对象。 索引对于任何关系数据库表都是必不可少的。 数据中还有其他类型的索引吗? 还有两种比较特殊的索引,一是空间索引,其信息在sys.spatial_index_tessellations 和 sys.spatial_indexes表中。 为此,它需要估计数据的“基数”,以确定为任何索引值返回多少行,并使用这些“stats”对象告诉它数据是如何分布的。

    1.4K10发布于 2018-08-03
  • 来自专栏实时流式计算

    一体化数据管理平台——OpenMetadata入门宝典

    一、开源数据管理平台 数据管理是企业全面开展数据治理的起点。各种数据管理工具,数据管理平台也层出不穷。 开源的数据管理平台很多。 开源数据管理平台是一种用于收集、存储和管理数据的工具,它们提供了一种可扩展的方式来组织和维护数据数据信息。 以下是一些常见的开源数据管理平台: Apache Atlas:Apache Atlas是一个开源的大数据数据管理和数据治理平台,旨在帮助组织收集、整理和管理数据数据信息。 它提供了丰富的数据模型和搜索功能,可以与各种数据存储和处理平台集成。 LinkedIn DataHub:LinkedIn DataHub是LinkedIn开源的数据搜索和发现平台。 这些开源数据管理平台都提供了各种功能,如数据存储、搜索、浏览、数据资产关系管理、数据血统跟踪等,帮助组织更好地管理和利用数据数据信息。

    15K40编辑于 2023-08-09
  • 来自专栏java编程那点事

    合并数据

    如同ProtocolBuffer,Avro,Thrift一样,Parquet也是支持数据合并的。用户可以在一开始就定义一个简单的数据,然后随着业务需要,逐渐往数据中添加更多的列。 在这种情况下,用户可能会创建多个Parquet文件,有着多个不同的但是却互相兼容的数据。Parquet数据源支持自动推断出这种情况,并且进行多个Parquet文件的数据的合并。 因为数据合并是一种相对耗时的操作,而且在大多数情况下不是一种必要的特性,从Spark 1.5.0版本开始,默认是关闭Parquet文件的自动合并数据的特性的。 可以通过以下两种方式开启Parquet数据源的自动合并数据的特性: 1、读取Parquet文件时,将数据源的选项,mergeSchema,设置为true 2、使用SQLContext.setConf // 一个是包含了name和age两个列,一个是包含了name和grade两个列 // 所以, 这里期望的是,读取出来的表数据,自动合并两个文件的数据,出现三个列,name、age、grade /

    1.3K10编辑于 2023-02-25
  • 来自专栏实时流式计算

    数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

    数据管理平台层出不穷,但目前主流的还是Atlas、Datahub、Openmetadata三家,那么我们该如何选择呢? 本文就带大家对比一下,这三个平台优势劣势。 要了解元数据管理平台,先要从架构说起。 数据管理的架构与开源方案 下面介绍数据管理的架构实现,不同的架构都对应了不同的开源实现。 下图描述了第一代数据架构。 作为较新的平台,可能还在某些方面需要时间来成熟。 如何选择? 毫无疑问,从活跃度和发展趋势来看,Datahub都是目前最炙手可热的数据管理平台。 原生支持所有组件的数据管理平台是不存在的。但是好在数据管理平台都提供了丰富的API接口,是可以扩展的。 所以在对数据源梳理后,并结合上面数据管理平台的特性,可以做出基本的选择。 二开这里简单说一下,如果是数据管理平台+数据治理工具的组合,建议选择Datahub基本可以覆盖所有的数据管理功能,也有很好的扩展性。

    7K10编辑于 2024-01-05
  • 来自专栏大数据架构师成长之路

    数据解读

    数据应用领域较广,种类甚多, 按照不同应用领域或功能,数据分类有很多种方法或种类,数据一般大致可为三类:业务数据、技术数据和操作数据数据架构可分为三类:集中式数据架构、分布式数据架构和混合数据架构。 集中式数据架构: 集中式架构包括一个集中的数据存储,在这里保存了来自各个数据来源的数据最新副本。 保证了其独立于源系统的数据高可用性;加强了数据存储的统一性和一致性;通过结构化、标准化数据及其附件的数据信息,提升了数据数据质量。集中式数据架构有利于数据标准化统一管理与应用。 这三类各有千秋,但为了更好发挥数据价值,就需要对数据标准化、集中整合化、统一化管理。如果企业做功能较为完善的数据资产管理平台可采用集中式数据架构。 还包括未采集数据资产管理平台数据信息,实际数据还分布在各个源系统的数据,需要抽取、转换、清洗和加载到数据平台的相关流程和ETL工具,便于业务用户数据查找和数据使用。

    1.6K51发布于 2020-06-10
  • 来自专栏实时计算

    Hadoop生态数据管理平台——Atlas2.3.0发布!

    今天我们来聊一下另一个数据管理平台Apache Atlas。Atlas其实有一些年头了,是在2015年的时候就开源。 特别Atlas对Hive的原生支持,以及数据血缘的展示,非常的友好。! 所以,目前来看,对于基于Java技术栈开发, 并且使用Hadoop生态的企业,Atlas依然是数据管理的最好选择。 Atlas 2.3.0更新日志 新增功能: 用于根据类型和属性搜索关系的 API 和 UI 改进方面: 术语表的处理性能大幅度改进 UI 改进以查看指标和统计数据,指标进行持久性存储 数据血缘 API 依赖升级:JanusGraph、Elasticsearch、Kafka、Storm、TinkerPop、Gson、Spring Framework、Log4j UI:修复和改进多个页面,如搜索、血缘、业务数据

    1.2K40编辑于 2023-01-13
领券