首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏鸿的学习笔记

    现代数据平台

    数据管理很多年前就有了,比如很多公司会拿Excel或者是文本存储数据仓库里所有的表结构,以方便大家查询。但是现代数据平台与传统的数据管理有什么区别呢? 它是一个平台,可大规模集成、处理和提供丰富的数据,以应对许多复杂的组织数据挑战。 为什么需要现代数据平台? “为什么传统的数据管理解决方案不够好?” 那么,为什么需要现代数据平台呢?因为您的数据可能与您的数据一样大和一样复杂,因此应该受到同样的尊重。 如何构建出色的现代数据平台? 简而言之,一个优秀的数据平台看起来与一个优秀的数据平台非常相似。 总结 这篇文章可以视为一个新概念的开端,阐述了领英的数据团队对于现代数据平台的理解,算是对传统的数据管理很好补充。

    83531编辑于 2022-03-11
  • 来自专栏全栈程序员必看

    数据平台数据管理

    概念解释 1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。 2,大数据平台涉及的数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是数据,除此之外的数据都是数据。 对大数据开发平台来说,常见的数据包括以下6点: 1,数据表的结构schema信息 (1) SQL或者NoSQL中的表视图信息,例如MySQL中可以通过SHOW CREATE TABLE table_name 4,数据的权限归属 (1) 哪些人有权限查阅数据 (2) 哪些人有权限管理数据 5数据的血缘关系 (1) 数据的上游和下游是哪里,也就是数据从哪来的、将会用到哪里去 (2) 收集数据的血缘关系的作用 (3) 具体数据的业务部门归属 (4) 每个数据表分别是由哪位开发者负责的 (5) 脚本逻辑的变迁记录、变迁原因 如何收集数据 上述数据信息大部分需要人工录入,但是最好是整合到业务开发流程中

    1.3K10编辑于 2022-08-24
  • 来自专栏实时流式计算

    数据血缘系列(5)—— 数据血缘与数据

    结构化特征则确保数据以结构化的方式存储和表示,便于计算机处理和分析。数据的动态性体现了随着数据的创建、修改和使用,数据也会不断更新,以反映数据的最新状态。 最后,数据的可管理性特征使得数据能够被有效地管理和控制,确保数据的质量、安全性和合规性。 共享性是数据的一大重要特点,数据一经建立便可在不同系统和应用之间共享,提高数据的可用性和一致性。 数据的类型 根据不同的应用场景,数据可以分为业务数据、技术数据和操作数据。 业务数据描述与业务相关的信息,包括业务术语、数据定义和业务规则。 技术数据描述与数据存储和处理技术相关的信息,包括数据库表结构、字段类型、索引等。例如,数据库中表的结构定义和索引信息属于技术数据。 在数据治理中,数据数据血缘紧密相关。数据记录了数据的来源和目标,使数据血缘分析能够准确地追踪数据的流动路径。

    1.1K10编辑于 2024-07-16
  • 来自专栏大数据杂货铺

    DataHub数据治理平台架构

    1.DataHub架构概述 DataHub 是第三代数据平台,支持为现代数据堆栈构建的数据发现、协作、治理和端到端可观察性。 1.1.2.基于流的实时数据平台 DataHub 的数据基础设施是面向流的,允许数据的更改在几秒钟内在平台内进行通信和反映。 2.DataHub组件概述 DataHub 平台由下图所示的组件组成。 2.1.数据存储 数据存储负责存储构成数据图的实体和方面。 2.2.数据模型 数据模型是定义构成数据图的实体和方面的形状以及它们之间的关系的模式。 3.1.数据变更提案:核心部分 摄取的核心部分是数据更改提案,它表示对组织的数据图进行数据更改的请求。数据更改建议可以通过 Kafka 发送,以便从源系统进行高度可扩展的异步发布。

    3.2K10编辑于 2024-01-31
  • 来自专栏杨建荣的学习笔记

    运维平台数据稽核小结

    数据库运维中的数据建设都是重中之重,如果数据不具有参考的价值,那么后续的操作都会受到影响,但是数据的建设也应该是分成几个步子来走,首先得能够收集到数据或者数据的录入,数据有了后续做规范和标准化才有依据 比如你看到的一个数据列表类似下面的形式,假设有9个数据库实例,其实这个阶段你也会犯嘀咕,要拍胸脯说数据妥妥的,那是主观片面的,我们怎么来验证,或者怎么发现数据问题来修复。 第三个阶段其实是对于未知问题的把握,比如我们的数据库中录入了100个实例,但是可能某个服务器上另外又部署了2个实例,在数据中可能遗漏了。 或者说服务器上运行着5个实例,但是在数据里面是6个实例,因为之前做的都是ssh是否可达的校验,这一层的校验目前还是空白。 所以零零散散的拼接起来,大体就是下面的几类问题了。 ? 整个对比就是一个全面的比较,数据就是一个列表,系统中抓取的信息也是一个列表,两个列表互相对比,就能够得到一些差异的数据

    1.5K40发布于 2018-07-26
  • 数据管理平台(OpenMetaData)--数据拾取能力演示

    AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。 摘要: 本文档介绍如何在Linux服务器上部署Airflow服务,与openmetadata进行集成,后在openmetadata系统中实现对Airflow工作流数据的拾取以及数据数据的拾取。 • openmetadata:1.6.0 • airflow:2.9.1 数据管理平台基于开源项目OpenMetaData建设 数据管理平台OpenMetaData通过全面的数据采集、强大的存储与检索 、深度的分析与治理、灵活的应用与共享、高扩展性与定制化以及直观的用户体验,为企业提供了一站式的数据管理解决方案。 默认使用本机的sqlite存储,官方建议修改为 mysql 数据库 2.4.4 auth_backends 要让openmetadata支持airflow数据拾取需要修改该配置为 2.5 初始化数据

    58210编辑于 2025-11-20
  • 来自专栏大数据杂货铺

    DataHub数据管理平台概述

    这个可扩展的数据平台专为开发人员构建,以应对快速发展的数据生态系统的复杂性,并帮助数据从业者充分利用组织内数据的总价值。 以下是 DataHub 当前功能的概述。 搜索和发现 搜索数据堆栈 DataHub 的统一搜索体验可跨数据库、数据湖、BI 平台、ML 特征存储、编排工具等显示结果 追踪端到端血缘 通过跟踪跨平台数据集、ETL/ELT 管道、图表 查看数据 360一目了然 结合技术和逻辑数据,提供数据实体的 360° 视图。 创建新策略时,您将能够定义以下内容: ·策略类型- 平台(顶级 DataHub 平台权限,即管理用户、组和策略)或数据(操作所有权、标签、文档等的能力) ·资源类型- 指定资源类型,例如数据集、仪表板 通过最大限度地减少操作自定义集成管道所需的开销,可以更轻松地将数据导入 DataHub。 原文链接:https://datahubproject.io/docs/features

    1.8K10编辑于 2024-01-31
  • 来自专栏大数据-BigData

    B站大数据平台数据业务分享

    本期作者 沈汪洋 哔哩哔哩资深开发工程师 负责B站数据平台工具侧数据数据运营、数据管理等业务方向,专注于数据采集、血缘应用、数据地图、建模工具、治理工具等工具或产品功能的落地和推广。 背景介绍 数据数据平台的衍生数据,比如调度任务信息,离线hive表,实时topic,字段信息,存储信息,质量信息,热度信息等。 随着数据平台业务规模的增长,平台会沉淀大量的数据表,调度任务等数据。由于前期快速的业务发展产生大量数据管理成本,存储计算成本。 数据基建 背景&目标 B站的数据平台数据建设之初,由于对数据的业务理解不够深入,人力投入有限,实现方案采用的是针对特定需求深度定制化。 本文为从大数据到人工智能博主「xiaozhch5」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。

    1.4K21编辑于 2022-06-12
  • 来自专栏大数据&分布式

    数据平台:统一数据管理

    背景介绍 数据管理包括数据采集、存储、管理及应用等关键环节,是数据治理的基础与核心。但数据管理实践过程中通常会面临数据来源众多且分散在不同系统中、数据类型多样以及数据频繁变更等问题。 更泛化理解,如图展示腾讯云数据湖的统一数据架构:支持在线数据目录和离线数据治理的统一 数据类型 数据类型按照使用领域与功能可以分为:技术数据、业务数据、操作数据、管理数据 技术数据:用于描述数据的技术信息 提供了构建元模型的语言和工具,例如包、类等 数据管理 常规的数据管理流程可分为如下5个步骤:模型定义、数据采集、数据加工、数据存储、数据应用。 统一数据ID加工:数据系统内部应生成唯一的数据ID,与原始平台数据ID形成一对一的映射关系,便于数据进行全流程追溯和适配不同平台。 ,为避免数据孤岛,企业内部通常会搭建统一数据平台,将数据汇总进行统一管理,对外提供统一服务,对内进行统一治理优化。

    4K97编辑于 2024-05-21
  • 2025年统一数据管理平台推荐:这5款工具助你实现数据敏捷管理

    摘要 在数字化转型加速的背景下,统一数据管理平台成为企业打破数据孤岛、提升数据价值的核心工具。 导语:为何需要统一数据管理? 随着企业数据量爆发式增长,分散在对象存储、数据库、数据仓库等多源系统中的数据亟需统一治理。 统一的数据管理平台能够实现: 数据血缘追踪:快速定位数据来源与流转路径; 智能检索:通过统一视图简化跨平台查询; 成本优化:识别冗余存储与低效任务; 安全合规:集中管控敏感数据权限。 正文:统一数据管理平台对比与推荐 一、主流统一数据管理平台对比 平台名称 核心功能 统一数据管理与多源融合 跨平台兼容:原生对接腾讯云COS、云数据库、数据仓库等,通过统一SQL接口实现多源联合分析。 数据血缘追踪:自动生成数据血缘图谱,辅助数据治理与合规审计。

    37910编辑于 2025-10-28
  • 来自专栏Mac资源随时更新

    音频数据编辑需要什么工具?Tagr 5 音频数据编辑工具推荐!

    Tagr 5是一款强大的音频数据编辑工具,可以帮助你组织你的MP3、M4A(MP4)收藏。随着tagr你可以很容易地编辑信息如歌的艺术家,标题,或专辑封面! Tagr 5 音频数据编辑工具:https://www.macz.com/mac/2639.html?

    1.2K20编辑于 2022-09-28
  • 来自专栏WordPress果酱

    WordPress 主题教程 #5c:日志数据

    日志数据是从零开始创建 WordPress 主题系列教程的五篇的第三部分,今天我们将开始讲解日志的数据(Postmetadata):日期(date),分类(categories),作者(author 下面的屏幕截图是为了适应日志的大小而只裁剪了一部分,它主要你关注日志数据代码的位置: 保存并刷新浏览器,现在应该是: 我们同样可以通过查看源代码来看日志数据是怎样的? 详细解释:

    - 所有的日志数据都在一个 class="postmetadata" 的段落标签中,因为我们要把日志数据和日志内容区分开, 如果没有段落标签,日志数据信息将在日志内容结束的地方继续,这样就没有任何间距去区别内容和日志数据

    52730编辑于 2023-04-15
  • 来自专栏测试开发干货

    (简易)测试数据构造平台: 5 (首页部分)

    我们现在要做一个首页的前端部分,这个页面的内容主要是我们的工具列表,可以方便进入的用户直接选中工具来进入工具详情页。

    95120编辑于 2022-05-20
  • 来自专栏实时流式计算

    数据管理平台Datahub2022年度回顾

    数据管理平台,Datahub在2022年有了巨大的发展。近期Datahub官方做了一下2022年的回顾,我这里也挑选一些有价值的内容跟大家分享一下。 所以我也在近期开通了大数据流动的视频号。以后也会在视频号中做Datahub的一些教程,功能展示,部署演示等等作品出来。 也希望大家多多关注 大数据流动视频号。这是我坚持下去的唯一动力! 大数据流动视频号作品 《开源数据管理平台Datahub2022年回顾》 在2022年中,Datahub的活跃度有了质的提升。 用户界面与业务联系更密切,页面更加友好,同时为开发人员提供更大的灵活性来与 DataHub 的 API 进行交互,并为为各种数据工具构建强大的集成支持。

    84130编辑于 2023-03-24
  • 来自专栏大数据&分布式

    统一数据模型定义、数据采集

    背景 数据管理可分为如下5个流程步骤:模型定义、数据采集、数据加工、数据存储、数据应用。其中,模型定义是整个数据管理的前提和规范,用于定义可管理的数据范式。 数据采集是数据来源的重要途径,提供可管理的数据原料,而如何进行可扩展且高效的数据采集也是数据管理的难点之一。本文将主要针对模型定义、数据采集两个模块进行详细说明。 模型定义 模型是数据标准的M2层,是对数据M1层的抽象。更多详情可参考《数据资产管理体系与标准》。 通用数据模型:支持关系型数据源的数据治理,如MySQL、PG、Oracle等数据管理; 备注:如果需考虑文件数据等场景,需要对模型扩展。 ,获取数据信息; 对于特殊组件,如Hive,可实现组件Hook,基于PUSH主动上报 业务数据支持PUSH主动上报 异构采集触发:基于消息中间件,解耦数据的采集过程和处理过程; 数据推断 数据推断

    4.1K43编辑于 2024-05-14
  • 来自专栏实时流式计算

    一站式数据治理平台——Datahub入门宝典

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌数据管理工具Atlas之势。 国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的数据管理平台,但可参考的资料太少。 所以整理了这份文档供大家学习使用。 可能是关系数据库或 NoSQL 存储中的表、实时流数据、 AI 系统中的功能、指标平台中的指标,数据可视化工具中的仪表板。 数据生态是多样的,而 DataHub提供了可扩展的数据管理平台,可以满足数据发现,数据可观察与治理。这也极大的解决了数据复杂性的问题。 Datahub提供了丰富的数据源支持与血缘展示。 数据信息中按照数据集,仪表板,图表等类型进行了分类。 再往下看是平台信息,在这当中包括了Hive,Kafka,Airflow等平台信息的收集。 下面其实是一些搜索的统计信息。

    8.2K32编辑于 2022-01-04
  • 来自专栏云头条

    5 亿、浙江省电子政务视联网市级平台租用服务

    2022年8月31日,浙江省大数据发展管理局发布《2022年9月政府采购意向》公告。 浙江省电子政务视联网市级平台租用服务(一)采购需求概况 为杭州、湖州、嘉兴、绍兴、金华、衢州6个市部门提供4K高清视频会议系统服务,做好与各县视频会议系统的互联互通和技术服务保障。 一是市本级4K高清电子政务视联网平台租用服务、市到县(市、区)视联网专线及服务、市级部门(4K高清、1080P高清)视联网接入服务。 浙江省电子政务视联网市级平台租用服务(二)采购需求概况 为宁波、温州、舟山、台州、丽水5个市部门提供4K高清视频会议系统服务,做好与各县视频会议系统的互联互通和技术服务保障。 一是市本级4K高清电子政务视联网平台租用服务、市到县(市、区)视联网专线及服务、市级部门(4K高清、1080P高清)视联网接入服务。

    1.6K30编辑于 2022-09-08
  • 数据治理决策指南:数据平台自研与采购的真实成本账单

    摘要:企业在数据治理中面临数据平台“自研还是采购”的决策时,常因低估技术代差与隐性成本而陷入误区。 本文深度剖析了传统列级血缘与算子级血缘在解析精度、自动化能力上的代际鸿沟,并通过真实成本账单对比,揭示为何以算子级血缘为核心的主动数据平台是实现DataOps、自动化盘点与风险规避的确定性选择。 —— 这段来自行业观察的总结,精准地戳中了企业在数据平台建设决策中的核心矛盾。 第三代:主动数据平台。这是当前的技术前沿,以 DataOps 理念为核心,强调“主动感知、主动分析、主动预警”。其技术基石正是 算子级血缘 (Operator-level Lineage)。 核心要点决策核心是权衡“技术代差”:数据平台自研与采购的对比,本质是选择使用落后一代的“列级血缘”技术,还是直接应用前沿的“算子级血缘”技术。

    17610编辑于 2026-02-05
  • 来自专栏数字孪生元宇宙

    Omniverse:Nvidia的宇宙开发平台

    为了创造细节丰富且身临其境的 新的虚拟世界,创作者和开发者必须生成数量惊人的新数据和3D内容。但是,在使用当前的创建工具生成 3D 资产时,通常非常耗时且具有挑战性。 为了解决这个问题,开发人员需要创建对更多人来说更易于使用的新工具,这些工具利用人工智能和大数据来快速生成大量内容。此外,所有内容都需要以开放的格式存储,并实现轻松的互操作性。 image.png NVIDIA Omniverse是一个参考开发平台,从零开始构建,可通过模块化开发框架轻松扩展和自定义。 虽然最终用户和内容创建者利用Omniverse 平台来连接和加速他们的 3D 工作流程,但开发人员可以插入 Omniverse 堆栈的平台层,以便在Omniverse Kit上轻松构建扩展、应用程序和微服务 ---- 原文链接:Omniverse :开发人员的宇宙 — BimAnt

    1.2K30发布于 2021-11-21
  • 来自专栏实时计算

    数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

    数据管理平台层出不穷,但目前主流的还是Atlas、Datahub、Openmetadata三家,那么我们该如何选择呢? 本文就带大家对比一下。要了解元数据管理平台,先要从架构说起。 毫无疑问,从活跃度和发展趋势来看,Datahub都是目前最炙手可热的数据管理平台。Openmatadata更有数据治理、数据资产管理平台的样子。而Atlas和Hadoop联系紧密,也有自己优势。 相信读到这篇文章的人,大部分还是想做一个数据管理平台,以开展企业的数据治理工作。如果学习过DAMA的数据治理体系,我们应该知道做数据管理要梳理好数据源都在哪,并尽可能的管理公司的全量数据。 原生支持所有组件的数据管理平台是不存在的。但是好在数据管理平台都提供了丰富的API接口,是可以扩展的。 所以在对数据源梳理后,并结合上面数据管理平台的特性,可以做出基本的选择。 二开这里简单说一下,如果是数据管理平台+数据治理工具的组合,建议选择Datahub基本可以覆盖所有的数据管理功能,也有很好的扩展性。

    3.4K20编辑于 2024-01-10
领券