首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏鸿的学习笔记

    现代数据平台

    数据管理很多年前就有了,比如很多公司会拿Excel或者是文本存储数据仓库里所有的表结构,以方便大家查询。但是现代数据平台与传统的数据管理有什么区别呢? 它是一个平台,可大规模集成、处理和提供丰富的数据,以应对许多复杂的组织数据挑战。 为什么需要现代数据平台? “为什么传统的数据管理解决方案不够好?” 那么,为什么需要现代数据平台呢?因为您的数据可能与您的数据一样大和一样复杂,因此应该受到同样的尊重。 如何构建出色的现代数据平台? 简而言之,一个优秀的数据平台看起来与一个优秀的数据平台非常相似。 总结 这篇文章可以视为一个新概念的开端,阐述了领英的数据团队对于现代数据平台的理解,算是对传统的数据管理很好补充。

    83531编辑于 2022-03-11
  • 来自专栏全栈程序员必看

    数据平台数据管理

    概念解释 1,大数据平台——是指服务于大数据计算或存储的平台,包括大数据的计算集群(hive、spark、flink、storm等等)和存储集群(如hadoop、hbase等等)。 2,大数据平台涉及的数据——由大数据作业的业务逻辑直接读写处理的业务数据,都不是数据,除此之外的数据都是数据。 为什么要做数据管理 1,管理数据的好处——有助于用户更高效地分析数据,有助于系统和业务的优化,有助于数据的安全管控,有助于数据生命周期的管理,有助于任务问题的排查,有助于数据质量的保证。 2,怎样发挥数据的价值——数据信息通过服务的形式(例如REST接口)提供给上下游系统使用。 哪些数据纳入数据管理 这个问题也就是数据管理到底是管理什么。 对大数据开发平台来说,常见的数据包括以下6点: 1,数据表的结构schema信息 (1) SQL或者NoSQL中的表视图信息,例如MySQL中可以通过SHOW CREATE TABLE table_name

    1.3K10编辑于 2022-08-24
  • 来自专栏大数据杂货铺

    DataHub数据治理平台架构

    1.DataHub架构概述 DataHub 是第三代数据平台,支持为现代数据堆栈构建的数据发现、协作、治理和端到端可观察性。 1.1.2.基于流的实时数据平台 DataHub 的数据基础设施是面向流的,允许数据的更改在几秒钟内在平台内进行通信和反映。 2.DataHub组件概述 DataHub 平台由下图所示的组件组成。 2.1.数据存储 数据存储负责存储构成数据图的实体和方面。 2.2.数据模型 数据模型是定义构成数据图的实体和方面的形状以及它们之间的关系的模式。 3.1.数据变更提案:核心部分 摄取的核心部分是数据更改提案,它表示对组织的数据图进行数据更改的请求。数据更改建议可以通过 Kafka 发送,以便从源系统进行高度可扩展的异步发布。

    3.2K10编辑于 2024-01-31
  • 来自专栏杨建荣的学习笔记

    运维平台数据稽核小结

    数据库运维中的数据建设都是重中之重,如果数据不具有参考的价值,那么后续的操作都会受到影响,但是数据的建设也应该是分成几个步子来走,首先得能够收集到数据或者数据的录入,数据有了后续做规范和标准化才有依据 比如你看到的一个数据列表类似下面的形式,假设有9个数据库实例,其实这个阶段你也会犯嘀咕,要拍胸脯说数据妥妥的,那是主观片面的,我们怎么来验证,或者怎么发现数据问题来修复。 第三个阶段其实是对于未知问题的把握,比如我们的数据库中录入了100个实例,但是可能某个服务器上另外又部署了2个实例,在数据中可能遗漏了。 整个对比就是一个全面的比较,数据就是一个列表,系统中抓取的信息也是一个列表,两个列表互相对比,就能够得到一些差异的数据。 ,至于具体的信息可以进一步确认,总体来说,到了这个阶段,可以说数据是基本值得信赖的了。

    1.5K40发布于 2018-07-26
  • 数据管理平台(OpenMetaData)--数据拾取能力演示

    AllData大数据产品是可定义数据中台,以数据平台为底座,以数据中台为桥梁,以机器学习平台为中层框架,以大模型应用为上游产品,提供全链路数字化解决方案。 摘要: 本文档介绍如何在Linux服务器上部署Airflow服务,与openmetadata进行集成,后在openmetadata系统中实现对Airflow工作流数据的拾取以及数据数据的拾取。 • openmetadata:1.6.0 • airflow:2.9.1 数据管理平台基于开源项目OpenMetaData建设 数据管理平台OpenMetaData通过全面的数据采集、强大的存储与检索 、深度的分析与治理、灵活的应用与共享、高扩展性与定制化以及直观的用户体验,为企业提供了一站式的数据管理解决方案。 默认使用本机的sqlite存储,官方建议修改为 mysql 数据库 2.4.4 auth_backends 要让openmetadata支持airflow数据拾取需要修改该配置为 2.5 初始化数据

    58210编辑于 2025-11-20
  • 来自专栏大数据杂货铺

    DataHub数据管理平台概述

    这个可扩展的数据平台专为开发人员构建,以应对快速发展的数据生态系统的复杂性,并帮助数据从业者充分利用组织内数据的总价值。 以下是 DataHub 当前功能的概述。 搜索和发现 搜索数据堆栈 DataHub 的统一搜索体验可跨数据库、数据湖、BI 平台、ML 特征存储、编排工具等显示结果 追踪端到端血缘 通过跟踪跨平台数据集、ETL/ELT 管道、图表 查看数据 360一目了然 结合技术和逻辑数据,提供数据实体的 360° 视图。 创建新策略时,您将能够定义以下内容: ·策略类型- 平台(顶级 DataHub 平台权限,即管理用户、组和策略)或数据(操作所有权、标签、文档等的能力) ·资源类型- 指定资源类型,例如数据集、仪表板 通过最大限度地减少操作自定义集成管道所需的开销,可以更轻松地将数据导入 DataHub。 原文链接:https://datahubproject.io/docs/features

    1.8K10编辑于 2024-01-31
  • 来自专栏EAWorld

    微服务平台EOS Platform 8全新发布

    平台简介: 普新一代应用平台EOS Platform 8已经全面拥抱微服务架构,支持分布式架构,为企业业务上云提供云原生应用的支撑。 普结合多年企业架构的经验,整体规划普分布式平台总体架构。 普分布式平台总体架构 分布式平台主要包括四大部分:微服务平台(EOS Platform 8)、DevOps平台、容器云平台、监控平台。 普微服务平台EOS Platform 8产品定位 普微服务平台EOS Platform 8 逻辑架构 作为完整的微服务平台,需要系统性的提供开发工具(脚手架)与规范、运行能力支撑、管理监控三大块的能力 问3:数据怎么管理的? 答:在微服务体系下,针对整个数据的管理,可以看做是服务治理;目前在普提供的微服务管理平台上,已经提供了从域、系统、应用、实例分组、实例、API多个维度的服务资产的管理能力;可以方便实现对整个企业服务资产的数据管理

    4.2K21发布于 2018-10-23
  • 【能力比对】K8S数据平台VS数据平台

    一、K8S数据平台VS数据平台能力对比 1.1 K8S数据平台(CloudEon)-功能描述 K8S数据平台基于开源项目CloudEon建设,简化Kubernetes上大数据集群的运维管理,一款基于Kubernetes K8S数据平台(CloudEon)将基于 Kubernetes 的资源安装部署开源大数据组件,实现开源大数据平台的容器化运行,可减少对于底层资源的运维关注。 二、功能对比总结三、 功能模块对比 3.1.1 K8S数据平台-功能定位 定位:K8S数据平台(CloudEon)作为数据基础设施核心引擎,通过容器编排将数据库、大数据及AI框架标准化为云原生资源,解决传统架构弹性 04 数据集成与治理支持多种数据源的实时或批量集成,提供数据质量评估和改进工具,保障数据分析的准确性。通过数据管理,实现数据的全生命周期管理,助力企业构建标准化、可复用的数据资产。 四、 K8S数据平台VS数据平台-应用场景适配K8S数据平台(CloudEon)高实时性、弹性需求行业:互联网用户行为分析、金融反欺诈、AI模型推理等场景需支撑千万级QPS查询与GPU资源动态调度,其流批一体计算引擎

    55510编辑于 2025-05-07
  • 来自专栏大数据-BigData

    B站大数据平台数据业务分享

    本期作者 沈汪洋 哔哩哔哩资深开发工程师 负责B站数据平台工具侧数据数据运营、数据管理等业务方向,专注于数据采集、血缘应用、数据地图、建模工具、治理工具等工具或产品功能的落地和推广。 背景介绍 数据数据平台的衍生数据,比如调度任务信息,离线hive表,实时topic,字段信息,存储信息,质量信息,热度信息等。 随着数据平台业务规模的增长,平台会沉淀大量的数据表,调度任务等数据。由于前期快速的业务发展产生大量数据管理成本,存储计算成本。 由于先前数据的散落,导致系统间数据相互耦合,边界不清楚,无法以全局视角观察分析平台数据资产,无法串联数据之间的生产加工关系。于是建设起完善可靠的数据服务成为后续满足数据发现,数据治理业务的关键。 数据基建 背景&目标 B站的数据平台数据建设之初,由于对数据的业务理解不够深入,人力投入有限,实现方案采用的是针对特定需求深度定制化。

    1.4K21编辑于 2022-06-12
  • 来自专栏大数据&分布式

    数据平台:统一数据管理

    背景介绍 数据管理包括数据采集、存储、管理及应用等关键环节,是数据治理的基础与核心。但数据管理实践过程中通常会面临数据来源众多且分散在不同系统中、数据类型多样以及数据频繁变更等问题。 更泛化理解,如图展示腾讯云数据湖的统一数据架构:支持在线数据目录和离线数据治理的统一 数据类型 数据类型按照使用领域与功能可以分为:技术数据、业务数据、操作数据、管理数据 技术数据:用于描述数据的技术信息 提供了构建元模型的语言和工具,例如包、类等 数据管理 常规的数据管理流程可分为如下5个步骤:模型定义、数据采集、数据加工、数据存储、数据应用。 统一数据ID加工:数据系统内部应生成唯一的数据ID,与原始平台数据ID形成一对一的映射关系,便于数据进行全流程追溯和适配不同平台。 ,为避免数据孤岛,企业内部通常会搭建统一数据平台,将数据汇总进行统一管理,对外提供统一服务,对内进行统一治理优化。

    4K97编辑于 2024-05-21
  • 来自专栏测试开发干货

    数据工厂平台-8:首页统计功能

    想简单请直接跳转到第13章内容】 注意我们当前做的平台数据构造平台,既然是数据,那么首页我们要弄成什么样呢? 当然,每个工具被使用的时候,我们都要在统计表中记录好它被使用的次数,这样才能更加刺激其他同学在平台上创造数据构造小工具。 目前的设计主要会有四大模块: 大型数据工具 模块,此模块负责构造过程非常复杂且繁多,需要调用各种支撑服务的超大数据构造。 小工具类模块,此模块负责较小的脚本、数据构造、小工具等的模块。 设置管理模块,包括平台的各种设置,架构等等。 首页统计模块,方便使用者对当前整体有个概念 和力量展示。 下节课我们用vue和该统计图连接起来,控制它的展示数据等等。

    75130编辑于 2022-05-19
  • 来自专栏golang云原生new

    k8s如何访问 pod 数据

    如何访问 pod 数据 我们在 pod 中运行容器的时候,是否也会有想要获取当前 pod 的环境信息呢? 咱们写的 yaml 清单写的很简单,实际上部署之后, k8s 会给我们补充在 yaml 清单中没有写的字段,那么我们的 pod 环境信息和容器的数据如何传递到容器中呢? 是不是也是通过获取这些 k8s 默认给我填写的字段呢? ,数据的来源写法和上述的环境变量类似 我们可以看到,Downward Api 挂载数据,具体的文件里面会以键值对的方式来呈现,也会以文本的形式来呈现 我们来将 pod 的标签修改成 prod,验证容器里面对应的文件是否会对应修改 之前我们查看过默认的 k8s 挂载的位置,/var/run/secrets/kubernetes.io/serviceaccount 这里面有 命名空间,证书,token 这个时候,我们访问 k8s

    63340编辑于 2023-09-01
  • 来自专栏程序你好

    评估数据集成平台8个技巧

    成功的关键是找到一个数据集成平台,使快速将数据移动到云上变得容易,并在理想情况下集成其他端点,如应用程序、物联网和大数据。 然而,正如所有技术一样,没有两种平台是相同的——每种平台都最适合特定的环境和场景。 在您的数据集成平台评估期间,请提出以下问题,以便您能够缩小选择范围并做出明智的决定。 3、您的数据集成平台的目标用户是谁?他们是熟练的开发人员、临时集成商、市民集成商还是LOB分析师? 您主要是一个能够轻松利用附加集成工具的单一供应商商店(围绕主要的云平台、ERP或数据库组织)吗? 8、你是中小型企业、中型企业还是大型企业?你正在进行一个数字转换项目或计划吗?你增长吗?您的数据集成平台需要随着您的成长而扩展吗确认集成平台支持当前和未来的需求。

    1.1K20发布于 2018-10-18
  • 来自专栏杨建荣的学习笔记

    运维平台的建设思考-数据管理(三)(r8笔记第15天)

    继第一篇,第二篇介绍了关于数据的一些想法,最近做了一些改进。 运维平台的建设思考-数据管理(一) 运维平台的建设思考-数据管理(二) 对于一部分的数据抽取大体有下面的两种方式。 假设数据源已经做了很大的努力,终于统一起来了。我们现在要通过ssh的方式从源端抽取出数据来。 一种方式就是直接通过ssh的方式发送对应的查询脚本,然后可以得到一个完整的列表,二次加工即可。 ? 可以使用这种方式来简单验证,传入变量LANG cat seal.sql | ssh 10.127.33.7 'export LANG=en_US.utf-8;mysql -vv' 还是原来的脚本,加入- 这个问题客户端为GBK,数据库端为UTF8,所以还是需要考虑这种差异,最后还是使用发送脚本的方式来运行,使用下面的方式来改进即可。 cat seal.sql |iconv -f GBK -t UTF8 | ssh 10.127.33.7 'export LANG=en_US.utf-8;mysql ' |iconv -f UTF8

    92860发布于 2018-03-19
  • 来自专栏杨建荣的学习笔记

    运维平台的建设思考-数据管理(二)(r8笔记第11天)

    之前分享过一篇数据管理的文章 运维平台的建设思考-数据管理,如果服务器不多,或者人也不多,基本都是按照下面的方式来管理。 那么一种改进思路就是需要有一个专员来协调负责这些数据的管理。机器的申请,退还肯定要有流程,那么这些流程的一个触发器就是资产信息的变更,这些都需 要跟随资产信息变更来在列表中得到体现。 需要说明的是,这些共享的服务器资产信息是放在了数据库中。 从目前的数据管理的情况来看,其实对于每个人来说,还是主要关心自己负责的服务器,就需要从共享文件中生成属于自己的服务器列表信息,而且这些服务器信息还可以随着资产信息变化而变化,不要求实时,但是要求这些变化能够体现出来 后续来分享一个比较奇怪的数据抽取的案例。

    1.1K150发布于 2018-03-19
  • 来自专栏杨建荣的学习笔记

    运维平台的建设思考-数据管理(四)(r8笔记第16天)

    对于服务器的一些信息,如果数据量大了之后总是感觉力不从心,需要了解,但是感觉得到的这些信息不够清晰明了。 有了这些信息,数据的管理总算是迈上了一个台阶。如果哪个磁盘空间又问题会单独显示出来一些信息。 ? -s "${SERVERLIST}" ] ; then #cat /home/raidcheck/alldbserver-linux.txt|iconv -f GBK -t UTF8|grep yangjr ORA_LIST";" $ASM_LIST";" $MEMORY_FREE";" $SWAP_FREE";" $MEMORY_TOTAL";" $DISK_STAT ";" $UPTIME 相关链接: 运维平台的建设思考 -数据管理(一) 运维平台的建设思考-数据管理(二) 运维平台的建设思考-数据管理(三)

    995150发布于 2018-03-19
  • 来自专栏测试开发干货

    (简易)测试数据构造平台: 8 (首页美化)

    那么我们接下来就是使用 表格 来承载这些数据就好看了,表格这个组件呢,在elementUI中是这样写的:el-table 而这个表格标签,只需要指定data属性为我们创建的那个列表即可: 里面的每一列的元素标签是

    58830编辑于 2022-05-20
  • 来自专栏实时流式计算

    数据管理平台Datahub2022年度回顾

    数据管理平台,Datahub在2022年有了巨大的发展。近期Datahub官方做了一下2022年的回顾,我这里也挑选一些有价值的内容跟大家分享一下。 所以我也在近期开通了大数据流动的视频号。以后也会在视频号中做Datahub的一些教程,功能展示,部署演示等等作品出来。 也希望大家多多关注 大数据流动视频号。这是我坚持下去的唯一动力! 大数据流动视频号作品 《开源数据管理平台Datahub2022年回顾》 在2022年中,Datahub的活跃度有了质的提升。 用户界面与业务联系更密切,页面更加友好,同时为开发人员提供更大的灵活性来与 DataHub 的 API 进行交互,并为为各种数据工具构建强大的集成支持。

    84130编辑于 2023-03-24
  • 来自专栏数据猿

    数据24小时 | 创意信息拟8亿推进大数据战略,我国首个工业大数据交易平台落户萧山

    近日,在首届中国工业大数据产业发展高峰论坛上,“钱塘大数据”交易平台宣布正式上线,并落户杭州萧山区。 同时,该平台也是我国首个工业大数据应用交易平台,其定位是以工业大数据交易为核心,为政府、工业企业及个人提供工业大数据估值、应用在内的多项数据服务。也将加快萧山区大数据产业的发展进程。 美国医疗大数据平台Apixio1930万美元融资,SSM Partners领投 最近,医疗大数据平台Apixio在最新一次的D轮融资里得到资金1930万美金。 据悉,Apixio于2009年成立在美国,总部位于加利福尼亚州圣马特奥,旗下大数据分析的平台“HCC Profiler”以提供大数据分析平台给各大医疗机构,使医生们能更准确地诊断和处理医疗问题为目标。 数据网络服务商创意信息拟8亿收购邦讯信息 用于强化大数据运营 电信级数据网络系统技术服务商创意信息近日宣布,将拟8亿人民币收购邦讯信息100%股权,据悉,邦讯信息是信息化运维管理服务商,主要为电信客户提供管理信息系统与技术方面的支持

    93280发布于 2018-04-19
  • 来自专栏大数据&分布式

    统一数据模型定义、数据采集

    背景 数据管理可分为如下5个流程步骤:模型定义、数据采集、数据加工、数据存储、数据应用。其中,模型定义是整个数据管理的前提和规范,用于定义可管理的数据范式。 数据采集是数据来源的重要途径,提供可管理的数据原料,而如何进行可扩展且高效的数据采集也是数据管理的难点之一。本文将主要针对模型定义、数据采集两个模块进行详细说明。 模型定义 模型是数据标准的M2层,是对数据M1层的抽象。更多详情可参考《数据资产管理体系与标准》。 通用数据模型:支持关系型数据源的数据治理,如MySQL、PG、Oracle等数据管理; 备注:如果需考虑文件数据等场景,需要对模型扩展。 ,获取数据信息; 对于特殊组件,如Hive,可实现组件Hook,基于PUSH主动上报 业务数据支持PUSH主动上报 异构采集触发:基于消息中间件,解耦数据的采集过程和处理过程; 数据推断 数据推断

    4.1K43编辑于 2024-05-14
领券