首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏鸿的学习笔记

    现代数据平台

    数据管理很多年前就有了,比如很多公司会拿Excel或者是文本存储数据仓库里所有的表结构,以方便大家查询。但是现代数据平台与传统的数据管理有什么区别呢? 它是一个平台,可大规模集成、处理和提供丰富的数据,以应对许多复杂的组织数据挑战。 为什么需要现代数据平台? “为什么传统的数据管理解决方案不够好?” You also need to traverse the metadata graph made up of 10s of millions of vertices and 100s of millions 那么,为什么需要现代数据平台呢?因为您的数据可能与您的数据一样大和一样复杂,因此应该受到同样的尊重。 如何构建出色的现代数据平台? 简而言之,一个优秀的数据平台看起来与一个优秀的数据平台非常相似。

    83531编辑于 2022-03-11
  • 来自专栏全栈程序员必看

    数据平台数据管理

    概念解释 1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。 2,大数据平台涉及的数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是数据,除此之外的数据都是数据。 为什么要做数据管理 1,管理数据的好处——有助于用户更高效地分析数据,有助于系统和业务的优化,有助于数据的安全管控,有助于数据生命周期的管理,有助于任务问题的排查,有助于数据质量的保证。 2,怎样发挥数据的价值——数据信息通过服务的形式(例如REST接口)提供给上下游系统使用。 哪些数据纳入数据管理 这个问题也就是数据管理到底是管理什么。 对大数据开发平台来说,常见的数据包括以下6点: 1,数据表的结构schema信息 (1) SQL或者NoSQL中的表视图信息,例如MySQL中可以通过SHOW CREATE TABLE table_name

    1.3K10编辑于 2022-08-24
  • 来自专栏大数据杂货铺

    DataHub数据治理平台架构

    1.DataHub架构概述 DataHub 是第三代数据平台,支持为现代数据堆栈构建的数据发现、协作、治理和端到端可观察性。 1.1.2.基于流的实时数据平台 DataHub 的数据基础设施是面向流的,允许数据的更改在几秒钟内在平台内进行通信和反映。 2.DataHub组件概述 DataHub 平台由下图所示的组件组成。 2.1.数据存储 数据存储负责存储构成数据图的实体和方面。 2.2.数据模型 数据模型是定义构成数据图的实体和方面的形状以及它们之间的关系的模式。 3.1.数据变更提案:核心部分 摄取的核心部分是数据更改提案,它表示对组织的数据图进行数据更改的请求。数据更改建议可以通过 Kafka 发送,以便从源系统进行高度可扩展的异步发布。

    3.2K10编辑于 2024-01-31
  • 来自专栏杨建荣的学习笔记

    运维平台数据稽核小结

    数据库运维中的数据建设都是重中之重,如果数据不具有参考的价值,那么后续的操作都会受到影响,但是数据的建设也应该是分成几个步子来走,首先得能够收集到数据或者数据的录入,数据有了后续做规范和标准化才有依据 比如你看到的一个数据列表类似下面的形式,假设有9个数据库实例,其实这个阶段你也会犯嘀咕,要拍胸脯说数据妥妥的,那是主观片面的,我们怎么来验证,或者怎么发现数据问题来修复。 第三个阶段其实是对于未知问题的把握,比如我们的数据库中录入了100个实例,但是可能某个服务器上另外又部署了2个实例,在数据中可能遗漏了。 整个对比就是一个全面的比较,数据就是一个列表,系统中抓取的信息也是一个列表,两个列表互相对比,就能够得到一些差异的数据。 ,至于具体的信息可以进一步确认,总体来说,到了这个阶段,可以说数据是基本值得信赖的了。

    1.5K40发布于 2018-07-26
  • 数据管理平台(OpenMetaData)--数据拾取能力演示

    AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。 摘要: 本文档介绍如何在Linux服务器上部署Airflow服务,与openmetadata进行集成,后在openmetadata系统中实现对Airflow工作流数据的拾取以及数据数据的拾取。 • openmetadata:1.6.0 • airflow:2.9.1 数据管理平台基于开源项目OpenMetaData建设 数据管理平台OpenMetaData通过全面的数据采集、强大的存储与检索 、深度的分析与治理、灵活的应用与共享、高扩展性与定制化以及直观的用户体验,为企业提供了一站式的数据管理解决方案。 默认使用本机的sqlite存储,官方建议修改为 mysql 数据库 2.4.4 auth_backends 要让openmetadata支持airflow数据拾取需要修改该配置为 2.5 初始化数据

    58210编辑于 2025-11-20
  • 来自专栏大数据杂货铺

    DataHub数据管理平台概述

    这个可扩展的数据平台专为开发人员构建,以应对快速发展的数据生态系统的复杂性,并帮助数据从业者充分利用组织内数据的总价值。 以下是 DataHub 当前功能的概述。 搜索和发现 搜索数据堆栈 DataHub 的统一搜索体验可跨数据库、数据湖、BI 平台、ML 特征存储、编排工具等显示结果 追踪端到端血缘 通过跟踪跨平台数据集、ETL/ELT 管道、图表 查看数据 360一目了然 结合技术和逻辑数据,提供数据实体的 360° 视图。 创建新策略时,您将能够定义以下内容: ·策略类型- 平台(顶级 DataHub 平台权限,即管理用户、组和策略)或数据(操作所有权、标签、文档等的能力) ·资源类型- 指定资源类型,例如数据集、仪表板 通过最大限度地减少操作自定义集成管道所需的开销,可以更轻松地将数据导入 DataHub。 原文链接:https://datahubproject.io/docs/features

    1.8K10编辑于 2024-01-31
  • 来自专栏科学计算

    10 编程

    编程 什么是编程 维基百科上的解释为: 编程(英语:Metaprogramming),又译超编程,是指某类计算机程序的编写,这类计算机程序编写或者操纵其它程序(或者自身)作为它们的资料,或者在运行时完成部分本应在编译时完成的工作 知乎上有一个关于编程的解释是比较直观的。 比如 meta-knowledge 就是「关于知识本身的知识」,meta-data 就是「关于数据数据」,meta-language 就是「关于语言的语言」,而 meta-programming 也是由此而来 」 —— 这是关于前面那条数据数据。 val end end @tid map(x->x^2, 1:10000) @which @which 1+2 @which sleep(2) @show x = rand(10

    1.1K20发布于 2020-06-30
  • 来自专栏测试开发干货

    数据工厂平台10: 首页底部

    不过这里我们要思考一个设计上的问题: 很多第一次做平台的同学,会盲目崇拜 首页的各种统计图,觉得这样很高大上。 但是实际上,你去访问公司很多内部平台时候,首页的统计图你根本不会去看,也不会在意。 尤其是统计数据是全局的整体的时候,作为单个用户 更加不会关心了。 当然大部分如此的设计,主要是为了美感,再就是给领导一目了然的掌控心里设计,然后就是秀肌肉,给同事看看自己的平台流量很大。最后就是为了开发者自己的后面晋升答辩、简历美化 提供数据量化支持。 鉴于我捅破了这层窗户纸,所以我们的设计是,同样是统计数据,但是底部留白我们要统计的一定得是登陆者的个人信息,而非全平台的总体数据。 我们为了能更好的融入进我们的平台首页,所以还要继续给它扒皮。

    66040编辑于 2022-05-19
  • 来自专栏大数据-BigData

    B站大数据平台数据业务分享

    本期作者 沈汪洋 哔哩哔哩资深开发工程师 负责B站数据平台工具侧数据数据运营、数据管理等业务方向,专注于数据采集、血缘应用、数据地图、建模工具、治理工具等工具或产品功能的落地和推广。 背景介绍 数据数据平台的衍生数据,比如调度任务信息,离线hive表,实时topic,字段信息,存储信息,质量信息,热度信息等。 随着数据平台业务规模的增长,平台会沉淀大量的数据表,调度任务等数据。由于前期快速的业务发展产生大量数据管理成本,存储计算成本。 数据基建 背景&目标 B站的数据平台数据建设之初,由于对数据的业务理解不够深入,人力投入有限,实现方案采用的是针对特定需求深度定制化。 目前建立10+数据采集上报方,接入实体类型16种,关系类型10种,其中Hive正式表数量6W+,各类任务数量11W+。

    1.4K21编辑于 2022-06-12
  • 来自专栏大数据&分布式

    数据平台:统一数据管理

    背景介绍 数据管理包括数据采集、存储、管理及应用等关键环节,是数据治理的基础与核心。但数据管理实践过程中通常会面临数据来源众多且分散在不同系统中、数据类型多样以及数据频繁变更等问题。 更泛化理解,如图展示腾讯云数据湖的统一数据架构:支持在线数据目录和离线数据治理的统一 数据类型 数据类型按照使用领域与功能可以分为:技术数据、业务数据、操作数据、管理数据 技术数据:用于描述数据的技术信息 提供了构建元模型的语言和工具,例如包、类等 数据管理 常规的数据管理流程可分为如下5个步骤:模型定义、数据采集、数据加工、数据存储、数据应用。 统一数据ID加工:数据系统内部应生成唯一的数据ID,与原始平台数据ID形成一对一的映射关系,便于数据进行全流程追溯和适配不同平台。 ,为避免数据孤岛,企业内部通常会搭建统一数据平台,将数据汇总进行统一管理,对外提供统一服务,对内进行统一治理优化。

    4K97编辑于 2024-05-21
  • 来自专栏三流程序员的挣扎

    2022-10-10-享模式

    模式 池中共享对象,减少对象创建,减小 OOM 机率。 比如 Android 从 xml 构建 View 时的构造器。Map 保存对象,有就拿出来用,没有再创建存到 Map 中去。 // 抽象的享类 public abstract class Flyweight { //内部状态 private String intrinsic; //外部状态,final 不许子类修改 protected final String Extrinsic; //要求享角色必须接受外部状态。 } //定义业务操作 public abstract void operate(); //内部状态的getter/setter } // 具体的享类 虽然可以使用享模式可以实现对象池,但是这两者还是有比较大的差异,对象池着重在对象的复用上,池中的每个对象是可替换的,从同一个池中获得 A对象和 B 对象对客户端来说是完全相同的,它主要解决复用,而享模式在主要解决的对象的共享问题

    27310编辑于 2022-10-25
  • 来自专栏腾讯云 DNSPod 团队

    企业专供10起!

    Bbyx.Ltd自2007年成立至今已有13年,全国拥有120多家直营门店,100家加盟店,2018年销售额突破6.8亿,发展迅猛。 目前,腾讯云限时域名大促,.ltd域名新注首年 仅需10! 点击下方链接,发挥你的创造力,用.ltd为你的企业创造无限可能 添加阿D微信 邀您加入官方交流群 ?

    59820发布于 2020-06-22
  • 来自专栏测试开发干货

    (简易)测试数据构造平台: 10 (首页-菜单)

    这里自然放的都是一些菜单,在elementUI中的菜单其实很简单,代码如下:

    42510编辑于 2022-07-07
  • 来自专栏实时流式计算

    数据管理平台Datahub2022年度回顾

    数据管理平台,Datahub在2022年有了巨大的发展。近期Datahub官方做了一下2022年的回顾,我这里也挑选一些有价值的内容跟大家分享一下。 所以我也在近期开通了大数据流动的视频号。以后也会在视频号中做Datahub的一些教程,功能展示,部署演示等等作品出来。 也希望大家多多关注 大数据流动视频号。这是我坚持下去的唯一动力! 大数据流动视频号作品 《开源数据管理平台Datahub2022年回顾》 在2022年中,Datahub的活跃度有了质的提升。 用户界面与业务联系更密切,页面更加友好,同时为开发人员提供更大的灵活性来与 DataHub 的 API 进行交互,并为为各种数据工具构建强大的集成支持。

    84130编辑于 2023-03-24
  • 来自专栏大数据&分布式

    统一数据模型定义、数据采集

    背景 数据管理可分为如下5个流程步骤:模型定义、数据采集、数据加工、数据存储、数据应用。其中,模型定义是整个数据管理的前提和规范,用于定义可管理的数据范式。 数据采集是数据来源的重要途径,提供可管理的数据原料,而如何进行可扩展且高效的数据采集也是数据管理的难点之一。本文将主要针对模型定义、数据采集两个模块进行详细说明。 模型定义 模型是数据标准的M2层,是对数据M1层的抽象。更多详情可参考《数据资产管理体系与标准》。 通用数据模型:支持关系型数据源的数据治理,如MySQL、PG、Oracle等数据管理; 备注:如果需考虑文件数据等场景,需要对模型扩展。 ,获取数据信息; 对于特殊组件,如Hive,可实现组件Hook,基于PUSH主动上报 业务数据支持PUSH主动上报 异构采集触发:基于消息中间件,解耦数据的采集过程和处理过程; 数据推断 数据推断

    4.1K43编辑于 2024-05-14
  • 来自专栏实时流式计算

    一站式数据治理平台——Datahub入门宝典

    随着数字化转型的工作推进,数据治理的工作已经被越来越多的公司提上了日程。作为新一代的数据管理平台,Datahub在近一年的时间里发展迅猛,大有取代老牌数据管理工具Atlas之势。 国内Datahub的资料非常少,大部分公司想使用Datahub作为自己的数据管理平台,但可参考的资料太少。 所以整理了这份文档供大家学习使用。 可能是关系数据库或 NoSQL 存储中的表、实时流数据、 AI 系统中的功能、指标平台中的指标,数据可视化工具中的仪表板。 数据生态是多样的,而 DataHub提供了可扩展的数据管理平台,可以满足数据发现,数据可观察与治理。这也极大的解决了数据复杂性的问题。 Datahub提供了丰富的数据源支持与血缘展示。 数据信息中按照数据集,仪表板,图表等类型进行了分类。 再往下看是平台信息,在这当中包括了Hive,Kafka,Airflow等平台信息的收集。 下面其实是一些搜索的统计信息。

    8.2K32编辑于 2022-01-04
  • 来自专栏信数据得永生

    Python 学习实用指南:6~10

    学习是学习的重点,我们知道,在学习中,我们从仅包含少量数据点的各种相关任务中学习,并且学习器会产生一个可以很好地概括新的相关任务的快速学习器,即使训练样本数量较少。 以下是每个任务中需要的样本数量(即镜头数量)和数据点数量[k): self.num_samples = 10 以下是周期数,即训练迭代: self.epochs = 1000 因此,对于每个任务,我们仅采样 10数据点并训练网络-也就是说,对于每个任务,我们仅采样 10 个(x, y)对。 让我们看一下代码并详细查看它。 因此,当我们对一批任务以及每个任务中的一些k数据点进行采样时,我们将使用深度神经网络学习每个k数据点的表示形式,然后对这些表示进行学习。 我们的框架包含三个组件: 概念生成器 概念判别器 学习器 概念生成器的作用是提取数据集中每个数据点的特征表示,捕获其高级概念,概念判别器的作用是识别和分类由概念生成器生成的概念,而学习器学习由概念生成器生成的概念

    91110编辑于 2023-04-24
  • 数据治理决策指南:数据平台自研与采购的真实成本账单

    摘要:企业在数据治理中面临数据平台“自研还是采购”的决策时,常因低估技术代差与隐性成本而陷入误区。 本文深度剖析了传统列级血缘与算子级血缘在解析精度、自动化能力上的代际鸿沟,并通过真实成本账单对比,揭示为何以算子级血缘为核心的主动数据平台是实现DataOps、自动化盘点与风险规避的确定性选择。 —— 这段来自行业观察的总结,精准地戳中了企业在数据平台建设决策中的核心矛盾。 第三代:主动数据平台。这是当前的技术前沿,以 DataOps 理念为核心,强调“主动感知、主动分析、主动预警”。其技术基石正是 算子级血缘 (Operator-level Lineage)。 核心要点决策核心是权衡“技术代差”:数据平台自研与采购的对比,本质是选择使用落后一代的“列级血缘”技术,还是直接应用前沿的“算子级血缘”技术。

    17610编辑于 2026-02-05
  • 来自专栏数字孪生元宇宙

    Omniverse:Nvidia的宇宙开发平台

    为了创造细节丰富且身临其境的 新的虚拟世界,创作者和开发者必须生成数量惊人的新数据和3D内容。但是,在使用当前的创建工具生成 3D 资产时,通常非常耗时且具有挑战性。 为了解决这个问题,开发人员需要创建对更多人来说更易于使用的新工具,这些工具利用人工智能和大数据来快速生成大量内容。此外,所有内容都需要以开放的格式存储,并实现轻松的互操作性。 image.png NVIDIA Omniverse是一个参考开发平台,从零开始构建,可通过模块化开发框架轻松扩展和自定义。 虽然最终用户和内容创建者利用Omniverse 平台来连接和加速他们的 3D 工作流程,但开发人员可以插入 Omniverse 堆栈的平台层,以便在Omniverse Kit上轻松构建扩展、应用程序和微服务 ---- 原文链接:Omniverse :开发人员的宇宙 — BimAnt

    1.2K30发布于 2021-11-21
  • 来自专栏实时计算

    数据管理平台对比预研 Atlas VS Datahub VS Openmetadata

    数据管理平台层出不穷,但目前主流的还是Atlas、Datahub、Openmetadata三家,那么我们该如何选择呢? 本文就带大家对比一下。要了解元数据管理平台,先要从架构说起。 毫无疑问,从活跃度和发展趋势来看,Datahub都是目前最炙手可热的数据管理平台。Openmatadata更有数据治理、数据资产管理平台的样子。而Atlas和Hadoop联系紧密,也有自己优势。 相信读到这篇文章的人,大部分还是想做一个数据管理平台,以开展企业的数据治理工作。如果学习过DAMA的数据治理体系,我们应该知道做数据管理要梳理好数据源都在哪,并尽可能的管理公司的全量数据。 原生支持所有组件的数据管理平台是不存在的。但是好在数据管理平台都提供了丰富的API接口,是可以扩展的。 所以在对数据源梳理后,并结合上面数据管理平台的特性,可以做出基本的选择。 二开这里简单说一下,如果是数据管理平台+数据治理工具的组合,建议选择Datahub基本可以覆盖所有的数据管理功能,也有很好的扩展性。

    3.4K20编辑于 2024-01-10
领券