首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 致数仓架构师:别再用 Excel 维护数据字典,主动数据才是正解

    Gartner等权威机构已明确指出,主动数据数据管理现代化的核心。 二、核心差异对比:传统工具vs主动数据平台Excel和传统血缘工具(表级/列级)在解析精度、颗粒度和管理模式上存在根本性缺陷,而基于算子级血缘的主动数据平台实现了从“依赖关系”到“加工逻辑理解”的质变 主动数据模式:通过“一键溯源”功能,自动生成从指标到源端数据的完整、可读的加工口径。例如,浙江农商联合银行利用此功能,将监管指标盘点时间从数月缩短至8小时,人效提升20倍。 六、常见问题(FAQ)Q1:我们数仓里有大量存储过程和复杂嵌套SQL,主动数据平台能准确解析吗?可以。 标杆客户经验表明,在自动化盘点等场景,效率提升是立竿见影的(如从数月缩短到8小时)。Q3:除了金融行业,其他行业的数仓治理也适用主动数据吗?完全适用。“看不清依赖链路”是各行业数仓的共性痛点。

    6410编辑于 2026-04-16
  • 来自专栏golang云原生new

    k8s如何访问 pod 数据

    如何访问 pod 数据 我们在 pod 中运行容器的时候,是否也会有想要获取当前 pod 的环境信息呢? 咱们写的 yaml 清单写的很简单,实际上部署之后, k8s 会给我们补充在 yaml 清单中没有写的字段,那么我们的 pod 环境信息和容器的数据如何传递到容器中呢? 是不是也是通过获取这些 k8s 默认给我填写的字段呢? ,数据的来源写法和上述的环境变量类似 我们可以看到,Downward Api 挂载数据,具体的文件里面会以键值对的方式来呈现,也会以文本的形式来呈现 我们来将 pod 的标签修改成 prod,验证容器里面对应的文件是否会对应修改 之前我们查看过默认的 k8s 挂载的位置,/var/run/secrets/kubernetes.io/serviceaccount 这里面有 命名空间,证书,token 这个时候,我们访问 k8s

    63340编辑于 2023-09-01
  • 数据治理新解法:基于算子级血缘的主动数据如何破解数仓重构难题?

    文章结合招商银行、浙江农商联合银行等标杆案例,展示了主动数据平台在自动化盘点、DataOps协同及模型治理等场景下的落地路径与量化价值。 管理模式被动、静态的数据管理。仅记录数据结构的静态快照,缺乏对数据流动、加工逻辑和变更影响的实时感知与主动干预能力,与 DataOps 所要求的自动化、协同化严重脱节。 四、 落地路径:从“看清”到“管好”的四步实践借助主动数据平台,企业可以构建一套闭环的数据管理能力,让数仓重构从临时的“运动式”项目,转变为可持续的“常态化”机制。 五、 价值验证:标杆客户如何用“手术刀”完成高难度重构金融行业头部客户的实践,为算子级血缘与主动数据的价值提供了最有力的量化证明。 主动数据驱动治理闭环:从自动化盘点、主动风控到模型治理、DataOps协同,构建了可持续的、常态化的数据管理能力。

    18310编辑于 2026-02-12
  • 一行代码改崩 20 张报表:主动数据如何实现「事前感知」?

    本文将深入剖析这一问题的根源,并介绍如何通过算子级血缘和主动数据技术,实现变更风险的“事前感知”与精准防控。 、主动风险防控三、新范式:以算子级血缘为基石的主动风险防控破解困局的关键在于将数据从“被动记录”升级为“主动驱动”。 事中(调度执行):与调度系统集成,实时监控与拦截生产环境的数据异常变更。事后(故障排查):基于精准血缘图谱快速定位数据异常根因,将排查时间从“小时级”缩短至“分钟级”。 四、落地路径:四步构建主动管控体系企业可以遵循以下路径,逐步构建主动数据变更管控体系:连接与解析:对接 Hive、Spark、Oracle、DB2、GaussDB 等全域数据平台,自动采集 SQL 与 浙江农商联合银行:对复杂 DB2 存储过程进行血缘解析,准确率达 99%,利用“一键溯源”将监管指标盘点从数月缩短至 8 小时,人效提升 20 倍。

    10310编辑于 2026-03-27
  • 来自专栏DeepHub IMBA

    细胞图像数据主动学习

    主动学习是机器学习中的一种方法,它提供了一个框架,根据模型已经看到的标记数据对未标记的数据样本进行优先排序。如果想 细胞成像的分割和分类等技术是一个快速发展的领域研究。 就像在其他机器学习领域一样,数据的标注是非常昂贵的,并且对于数据标注的质量要求也非常的高。针对这一问题,本篇文章介绍一种对红细胞和白细胞图像分类任务的主动学习端到端工作流程。 使用主动学习——展示一个模拟使用主动学习和不使用主动学习的对比实验。 细胞图像预处理 我们将使用在MIT许可的血细胞图像数据集(GitHub和Kaggle)。 主动学习 我们现在已经有了训练需要的搜有数据,现在可以开始试验使用主动学习策略是否可以通过更少的数据标记获得更高的准确性。 如果我们使用所有数据,那么它们最终分数是相同的,但是我们的研究目的是在少量标注数据的前提下训练,所以只使用了数据集中的300个随机样本。 总结 本文展示了将主动学习用于细胞成像任务的好处。

    76020编辑于 2022-11-11
  • 来自专栏数据派THU

    细胞图像数据主动学习

    为了解决这个问题,机器学习领域出现了一个叫做主动学习的领域。主动学习是机器学习中的一种方法,它提供了一个框架,根据模型已经看到的标记数据对未标记的数据样本进行优先排序。 就像在其他机器学习领域一样,数据的标注是非常昂贵的,并且对于数据标注的质量要求也非常的高。针对这一问题,本篇文章介绍一种对红细胞和白细胞图像分类任务的主动学习端到端工作流程。 使用主动学习——展示一个模拟使用主动学习和不使用主动学习的对比实验。 细胞图像预处理 我们将使用在MIT许可的血细胞图像数据集(GitHub和Kaggle)。 主动学习 我们现在已经有了训练需要的搜有数据,现在可以开始试验使用主动学习策略是否可以通过更少的数据标记获得更高的准确性。 如果我们使用所有数据,那么它们最终分数是相同的,但是我们的研究目的是在少量标注数据的前提下训练,所以只使用了数据集中的300个随机样本。 总结 本文展示了将主动学习用于细胞成像任务的好处。

    53930编辑于 2022-08-29
  • 来自专栏AI科技大本营的专栏

    400名微软员工主动曝光薪资:28万到228万不等!

    这份电子表格详细介绍了部分微软员工的薪酬情况,收集的数据包括工作年限、在微软工作的年限、基于绩效的加薪百分比、基本工资,以及股票和现金奖励。有些员工还注明了特殊的股票分配、签约奖金或里程碑成就。 这名员工的数据还表明,微软的职级对薪酬的影响力最大,超过了整体的经验或工作时间。虽然有些62级的员工(只比高级工程师低一级)的薪酬超过了某位65级的首席工程师,但这只是个例。 根据该电子表格的数据,虽然现金奖励在微软员工职业生涯中保持相对稳定的工资百分比,但股票收入可以涨到年收入的20%。 虽然这份数据无法表明这种策略,但常常有经验较少的人跳到更高的职级。 虽然关于在印度工作的微软工程师的数据非常少,但这份收集到的数据显示,他们的薪酬远低于位于华盛顿的同行们。 “大部分因素都是利他主义,”在谈起人们为什么会为Levels.fyi贡献数据时,Musa表示, “我认为,大家之所以很支持只是因为我们需要这些信息。”

    3.1K10发布于 2019-09-26
  • 金融数据治理新范式:如何用算子级血缘与主动数据 10分 钟定位 EAST 报送异常?

    三、新范式:基于算子级血缘的主动根因定位以 Aloudata BIG 为代表的主动数据平台,通过 >99% 解析准确率的算子级血缘为基座,结合主动监控与智能分析,从根本上改变了游戏规则。1. 主动监控与智能关联:从被动响应到主动预警主动数据能力体现在:实时监控:任务调度状态、数据产出时效、关键表的数据质量规则。 监管指标溯源人效提升 20 倍,原本需耗时数月的指标盘点工作,现在可缩短至 8 小时完成,为快速异常定位奠定了坚实的“数据地图”基础。 五、实施建议:构建主动数据风险防控体系企业可遵循以下三步路径,在 EAST 等关键场景中快速落地主动数据能力:基座先行:优先接入核心数仓(Hive, Oracle, GaussDB)、ETL/ELT 三是流程配合:将主动数据平台的预警与定位能力,与运维值班、数据研发团队的处置流程相结合,形成闭环。

    16510编辑于 2026-02-03
  • 来自专栏大数据&分布式

    统一数据模型定义、数据采集

    背景 数据管理可分为如下5个流程步骤:模型定义、数据采集、数据加工、数据存储、数据应用。其中,模型定义是整个数据管理的前提和规范,用于定义可管理的数据范式。 数据采集是数据来源的重要途径,提供可管理的数据原料,而如何进行可扩展且高效的数据采集也是数据管理的难点之一。本文将主要针对模型定义、数据采集两个模块进行详细说明。 ,数据采集可分为两种类型: 数据推断:通过读取并解析存储系统的数据文件,自动识别和推断该数据文件对应的Schema信息; 数据Crawler:主要通过PULL方式主动定时的周期性拉取数据信息;同时也支持引擎以 ,获取数据信息; 对于特殊组件,如Hive,可实现组件Hook,基于PUSH主动上报 业务数据支持PUSH主动上报 异构采集触发:基于消息中间件,解耦数据的采集过程和处理过程; 数据推断 数据推断 PULL主动采集:数据管理系统定时周期性采集,采集周期应支持设定,以适配数据源差异化的更新频率; PUSH被动采集:由人工发起或外部系统通过API主动上报,人工发起时,可以采用手动上传数据文件或主动启动采集任务的方式来完成

    4.1K43编辑于 2024-05-14
  • 来自专栏python3

    Python学习笔记8——列表、字典、

    参考书籍:《Learning_Python_5th_Edition.pdf》,一本英文书呢,我上传到百度网盘吧,请点击这里,密码是:kym3

    73920发布于 2020-01-19
  • 来自专栏数据狗说事儿

    数据治理投入ROI怎么算?某银行用3年数据证明:每1投入换回8业务价值

    ,每 1 治理投入,撬动了 8 业务价值。 风险失控的 “损失成本”:年暴露超 500 万信贷业务中,因企业财务数据缺失(如近 3 年纳税记录、关联方信息)、字段错误(如 “资产负债率” 计算口径偏差)导致的风控误判,年均产生 5-8 笔 “本可避免 (三)ROI 计算:每1投入换回8价值3 年总投入 = 平台采购(800 万)+ 人力成本(500 万)+ 流程优化(220 万)=1520 万;3 年总收益 = 显性节约(6800 万)+ 隐性增长 (5360 万)=1.216 亿;ROI=(1.216 亿 - 1520 万)/1520 万≈700%,即每 1 投入换回 8 业务价值(1.216 亿 / 1520 万≈8)。 毕竟,每 1 投入换回 8 价值的故事,不会只发生在银行。

    40800编辑于 2025-07-23
  • 来自专栏文渊之博

    探索SQL Server数据(三):索引数据

    背景 在第一篇中我介绍了如何访问数据数据为什么在数据库里面,以及如何使用数据。介绍了如何查出各种数据库对象的在数据库里面的名字。 第二篇,我选择了触发器的主题,因为它是一个能提供很好例子的数据库对象,并且在这个对象中能够提出问题和解决问题。 本篇我将会介绍数据中的索引,不仅仅是因为它们本身很重要,更重要的是它们是很好的数据类型,比如列或者分布统计,这些不是数据中的对象。 索引对于任何关系数据库表都是必不可少的。 数据中还有其他类型的索引吗? 还有两种比较特殊的索引,一是空间索引,其信息在sys.spatial_index_tessellations 和 sys.spatial_indexes表中。 为此,它需要估计数据的“基数”,以确定为任何索引值返回多少行,并使用这些“stats”对象告诉它数据是如何分布的。

    1.4K10发布于 2018-08-03
  • 来自专栏java编程那点事

    合并数据

    如同ProtocolBuffer,Avro,Thrift一样,Parquet也是支持数据合并的。用户可以在一开始就定义一个简单的数据,然后随着业务需要,逐渐往数据中添加更多的列。 在这种情况下,用户可能会创建多个Parquet文件,有着多个不同的但是却互相兼容的数据。Parquet数据源支持自动推断出这种情况,并且进行多个Parquet文件的数据的合并。 因为数据合并是一种相对耗时的操作,而且在大多数情况下不是一种必要的特性,从Spark 1.5.0版本开始,默认是关闭Parquet文件的自动合并数据的特性的。 可以通过以下两种方式开启Parquet数据源的自动合并数据的特性: 1、读取Parquet文件时,将数据源的选项,mergeSchema,设置为true 2、使用SQLContext.setConf // 一个是包含了name和age两个列,一个是包含了name和grade两个列 // 所以, 这里期望的是,读取出来的表数据,自动合并两个文件的数据,出现三个列,name、age、grade /

    1.3K10编辑于 2023-02-25
  • 来自专栏别先生

    Spark的Streaming + Flume进行数据采集(flume主动推送或者Spark Stream主动拉取)

    sources = r1 a1.channels = c1 a1.sinks = k1 # Describe/configure the source 描述和配置source组件:r1 #类型, 从网络端口接收数据 ,在本机启动, 所以localhost, type=spoolDir采集目录源,目录里有就采 #type是类型,是采集源的具体实现,这里是接受网络端口的,netcat可以从一个网络端口接受数据的。 wctotal.log a1.sources.r1.shell = /bin/bash -c # Describe the sink 描述和配置sink组件:k1 #type,下沉类型,使用logger,将数据打印到屏幕上面 #下沉的时候是一批一批的, 下沉的时候是一个个eventChannel参数解释: #capacity:默认该通道中最大的可以存储的event数量,1000是代表1000条数据

    1.5K50发布于 2018-05-16
  • 来自专栏大数据架构师成长之路

    数据解读

    数据应用领域较广,种类甚多, 按照不同应用领域或功能,数据分类有很多种方法或种类,数据一般大致可为三类:业务数据、技术数据和操作数据数据架构 数据战略是关于企业数据管理目标的说明,也是开发团队的参考框架。数据战略决定了企业数据架构。 数据架构可分为三类:集中式数据架构、分布式数据架构和混合数据架构。 集中式数据架构: 集中式架构包括一个集中的数据存储,在这里保存了来自各个数据来源的数据最新副本。 保证了其独立于源系统的数据高可用性;加强了数据存储的统一性和一致性;通过结构化、标准化数据及其附件的数据信息,提升了数据数据质量。集中式数据架构有利于数据标准化统一管理与应用。 混合式数据架构: 这是一种折中的架构方案,数据依然从数据来源系统进入存储库。但是存储库的设计只考虑用户增加的数据、高度标准化的数据以及手工获取的数据

    1.6K51发布于 2020-06-10
  • 数据管理最容易混淆的3个概念:数据数据模型

    数据这行的,肯定常听到“数据”“数据”“模型”这三个词。开会时有人说“数据管理”,转头又有人提“数据标准”,偶尔还穿插“模型设计”,但真要问它们仨到底啥区别,估计不少人说不清楚。 一、数据:描述“数据”本身的信息说白了,数据就是“关于数据数据”。 那么数据到底有啥用?简单说,数据就是帮你解决“数据从哪儿来、能干啥、怎么用”这三个问题的:实际工作中怎么用数据的? 比如FineDataLink中要管理“表数据”和“字段数据”,模型就会规定:每个“表数据”必须关联多个“字段数据”,每个“字段数据”必须包含“名称”“类型”“长度”这些信息。 4.治理数据时通过数据监控表的变更,用数据校验数据质量,按模型检查模型是否合规,比如事实表没加外键。总结数据数据模型这三个概念,看着有点绕,但其实都是数据治理的基础。

    3.4K11编辑于 2025-08-19
  • 来自专栏大数据和云计算技术

    数据概念

    刘耀铭同学数据系列作品的第一篇,大家支持! 其他数据相关系列文章: 基于数据驱动的ETL Hive 数据表结构详解 1、 数据是描述其他数据数据(data about other data),用于提供某种资源有关信息的结构化数据(structed 字面上看无法看出所以然,但其实看对应的英文含义就明确了,Meta指“对······的描述”类似Meta tag,所以数据就是对数据的解释和描述。 2、 这里主要将数据仓库的数据分为3类:DBMS数据字典、ETL处理流程产生的日志、BI建模等。 DBMS数据字典   数据库管理系统(DBMS)中的数据一般在所有的数据仓库都会包含,因为数据仓库一般都是基于数据库搭建的,而数据库本身的管理系统就会自动维护一套数据字典供用户查询。

    1.5K110发布于 2018-03-08
  • 来自专栏iOS打包,上架知识大全

    MySQL 数据

    数据库和数据表的信息: 包含了数据库及数据表的结构信息。 MySQL服务器信息: 包含了数据库服务器的当前状态,版本号等。 在MySQL的命令提示符中,我们可以很容易的获取以上服务器信息。 mysqli_affected_rows ($conn_id) : 0); print ("$count 条数据被影响\n"); ---- 数据库和数据表列表 你可以很容易的在MySQL服务器中获取数据库和数据表列表 你也可以使用 SHOW TABLES 或 SHOW DATABASES 语句来获取数据库和数据表列表。 PERL 实例 # 获取当前数据库中所有可用的表。 : 查看所有数据库 <? > ---- 获取服务器数据 以下命令语句可以在 MySQL 的命令提示符使用,也可以在脚本中 使用,如PHP脚本。

    82310编辑于 2023-05-05
  • 来自专栏阮一峰的网络日志

    数据(MetaData)

    数据是用来描述数据数据(Data that describes other data)。单单这样说,不太好理解,我来举个例子。 这个例子中的"年龄"、"身高"、"相貌"、"性格",就是数据,因为它们是用来描述具体数据/信息的数据/信息。 当然,这几个数据用来刻画个人状况还不够精确。 我们每个人从小到大,都填过《个人情况登记表》之类的东西吧,其中包括姓名、性别、民族、政治面貌、一寸照片、学历、职称等等......这一套数据才算比较完备。 在日常生活中,数据无所不在。 有一类事物,就可以定义一套数据。 喜欢拍摄数码照片的朋友应该知道,每张数码照片都包含EXIF信息。它就是一种用来描述数码图片的数据。 在电影数据库IMDB上可以查到每一部电影的信息。IMDB本身也定义了一套数据,用来描述每一部电影。

    1.4K100发布于 2018-04-13
  • 来自专栏IT资讯新闻

    MySQL 数据

    数据库和数据表的信息: 包含了数据库及数据表的结构信息。 MySQL服务器信息: 包含了数据库服务器的当前状态,版本号等。 在MySQL的命令提示符中,我们可以很容易的获取以上服务器信息。 mysqli_affected_rows ($conn_id) : 0); print ("$count 条数据被影响\n"); ---- 数据库和数据表列表 你可以很容易的在MySQL服务器中获取数据库和数据表列表 你也可以使用 SHOW TABLES 或 SHOW DATABASES 语句来获取数据库和数据表列表。 PERL 实例 # 获取当前数据库中所有可用的表。 : 查看所有数据库 <? > ---- 获取服务器数据 以下命令语句可以在 MySQL 的命令提示符使用,也可以在脚本中 使用,如PHP脚本。

    1.3K00发布于 2021-07-16
领券