首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据开发

    数据开发:离线数与实时数

    数据仓库的概念,最早是在1991年被提出,而直到最近几年的大数据趋势下,实时数据处理快速发展,使得数据仓库技术架构不断向前,出现了实时数,而实时数又分为批数据+流数据、批流一体两种架构。 1、离线数 离线数,其实简单点来说,就是原来的传统数数据以T+1的形式计算好放在那里,给前台的各种分析应用提供算好的数据。到了大数据时代,这种模式被称为“大数据的批处理”。 数据采集:flume/logstash+kafka,替代传统数的FTP; 批量数据同步:Sqoop、Kettle,跟传统数一样用Kettle,部分商用ETL工具也开始支持大数据集群; 大数据存储:Hadoop HDFS/Hive、TiDB、GP等MPP,替代传统数的Oracle、MySQL、MS SQL、DB2等; 大数据计算引擎:MapReduce、Spark、Tez,替代传统数数据库执行引擎; OLAP 2、实时数 实时数最开始是在日志数据分析业务中被广泛使用,后来在各种实时战报大屏的推动,实时数开始应用。

    5.3K11发布于 2021-06-09
  • 来自专栏大数据文摘

    数据捣毁“老鼠

    或许不完全是巧合,上述被传“老鼠”的基金经理,全部于事发之前离职,基金公司也悄无声息地发布离职换人公告。 统计数据显示,今年前4个月,基金高管、基金经理的离职数量已逼近去年全年的人数。 监管层“大数据”发力 证监会稽查技术手段升级也为打击“老鼠”提供了有力技术保障。据记者了解,涉嫌老鼠大名单是基于交易所监测到的异常账户形成的。 博时基金公司的马乐“老鼠”就是源于大数据提供的信息现形。此次被查“老鼠”的牟旭东,也是因为老鼠账户与其管理产品的投资标的高度重合,在获利报酬辗转至其本人账户时,侦查部门才正式着手调查此案。 据接近监管层的消息人士称,现在大数据监控已经相当敏感,和基金产品持仓重合度较高的账户都在被密切监控,一旦发现问题,就可正式立案调查。 在实施大数据监管之前,金融行业的“老鼠”事件基本来源于举报和监管层现场突击检查。未来,随着大数据监管与技术的不断升级,越来越多的“老鼠”会绳之于法。 摘自:中国经营报

    82780发布于 2018-05-21
  • 来自专栏小四的技术文章

    浅谈大数据

    顾名思义就是存放数据的仓库,那MySQL不也是存放数据的地方吗? 没错,只是数比MySQL大得多,数存的数据来源更广,数据类型更加多,MySQL只是存储关系型的数据库,MySQL用于OLTP(联机事务处理),而金融,政务等业务需要需要严格的事物控制,为了保证数据的原子性 离线数 离线数就是数据的处理是离线的,所以这也就决定了具有T+1特征,不能实时地得到数据并对数据进行使用,需要一定的时间时间间隔,这个时间间隔需要我们根据业务去设计,一般为一天,即当天产生的数据只能第二天才能使用 实时数 实时数就是对数据的实时性要求比较高,所以是即时运算的,它的数据来源和离线是一样的,数据出来后,一条走了实时,一条走了离线(Lambda架构),相比于离线数,实时数的难度就要大得多,因为离线数数据是全量数据 总结 上面只是简单地介绍了数的一些基本知识,数的分类,数据来源和数据流向,能够对数从整体上有一个认识,并没有从数的建模,技术等方面去说,后续再从数的各个组件和技术框架去说。

    86420编辑于 2023-03-02
  • 来自专栏全栈程序员必看

    数据建模

    数据建模 数据仓库简介       1.什么是数据库?     数据库(database)是按照数据结构来组织,存储和管理数据的建立在计算机存储设备上的仓库。      数据仓库的输入方是各种各样的数据源,最终的输出用于企业的数据分析,数据挖掘,数据报表等方向     数据仓库是决策支持系统(dss)和联机分析应用数据源的结构话数据环境。 稳定的:数里不存在数据的更新和删除操作。 变化的:数里会完整的记录某个对象在一段时间内的变化情况。 数据仓库的目的是实现集成,稳定,反映历史变化有组织有结构的存储数据的集合。 第一章数据仓库的概念 (3) (3)     大数据里面做的各种菜,当成我们大数据的各种产品,数的作用就是相当于这个牛逼的惨痛的后厨,采购各种原材料。 T+1 ,实时数,小时级别的,就是来一条数据很快出结果,头条,抖音这样公司…     去企业,大部分情况都是做报表(分析各种指标),画像,推荐,机器学习都需要掌握算法,     风控:风险控制,金融行业

    73520编辑于 2022-08-23
  • 来自专栏全栈程序员必看

    数据建模与数建模_数建模的几种方式

    数据模型 所谓水无定势,兵无常法。不同的行业,有不同行业的特点,因此,从业务角度看,其相应的数据模型是千差万别的。 在开始介绍数据模型之前,我们先看一个东西,那就是算法与数据结构,我们知道算法是解决特定问题的策略,数据结构处理问题的数学模型,数据结构 有三大要素,逻辑结构、存储结构、数据操作、这里的数据操作其实就是算法 ,例如我们定义的图的数据结构,然后在这个基础上对图进行操作形成特定的算法,例如深度遍历和广度遍历;我们的数据结构其实是针对特定的数据问题而抽象和设计的,也就是说一种数据结构针对的是一类特定的问题。 数据模型也一样,只不过数据结构是针对特定问题的,而数据模型是针对特定业务的,然后多业务进行抽象,形成了行业特征,在银行业,IBM 有自己的 BDWM(Banking data warehouse model 数据仓库的设计始于数据模型,企业的数据模型适用于操作型环境,而修改后的模型适用于数,其实就是业务模型—> 概念模型—>逻辑模型—>物理模型的这一过程 版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人

    81040编辑于 2022-11-15
  • 来自专栏share ai happiness

    数据之数概念

    ODS:(Operating Data Store):操作性数据仓库,最早的数据仓库模型。特点是数据模型采取了贴源设计,业务系统的数据结构是怎样的,ODS数据库的结构就是怎样的。 所不同的是ODS数据库可以提供数据变化的历史,所以ODS数据库中每张表都会增加一个日期类型,表示数据的时间点,将每天数据的变化情况都存下来,这样有利于数据的分析。 DB:(DataBase):数据库,一般指的就是OLTP数据库,在线事物数据库,用来支持生产的。DB保留的是数据信息的最新状态,只有一个状态! 数据中心整体架构 数据仓库的整体架构,各个系统的元数据通过ETL同步到操作性数据仓库ODS,对ODS数据进行面向主题或建模形成DW(数据仓库),DM是针对某一个业务领域建立模型,具体用户(决策层)查看DM 将这些整合过的数据置放于数据库中,而公司的决策者则利用这些数据作决策;但是,这个转换及整合数据的过程,是建立一个数据仓库最大的挑战。因为将作业中的数据转换成有用的的策略性信息是整个数据仓库的重点。

    90510发布于 2020-06-15
  • 来自专栏桥路_大数据

    实时数:流式数据建模

    流式数据模型 架构设计 数据模型设计是贯穿数据处理过程的,在实时流式数据处理中也一样。实时建模与离线建模类似,数据模型整体上分为5层(ODS、DWD、DWS、ADS、DIM)。 ? 其中ODS数据属于操作数据层,是直接从业务系统采集来的原始数据。在这一层上,数据与离线系统是一致的。 ODS层实时进入的数据,会进行去重、清洗等任务,适度做一些维度退化工作,清洗后的数据会存放到DWD层中,DWD数据明细层的数据会回流到消息队列中,从而实时同步到下游实时任务中,同时会持久化到数据库中供离线系统使用 所以维度数据,会由离线系统定期从ODS中获取数据,计算后存放在DIM层中。那为什么维度数据的延迟为T-2?虽然最好情况是使用T-1的数据,即昨天的数据进行计算。 所以为了保证数据一致性,T-1的维度数据虽然已经完成了计算,但不会直接使用,而是继续沿用T-2的维度数据数据流向 ODS、DWD层的数据会存放在消息中间件中,如Kafka。

    1.9K20发布于 2021-01-06
  • 来自专栏chaplinthink的专栏

    日志数据同步数设计

    背景 主要针对用户流量数据、风控数据、人物画像等数据进行同步至数, 制定数据传输格式为json,将用户数据解析写入Hive中,以T+1形式交付给用户,以便用户后续统计分析. 架构设计 实现细节 创建工作目录,用于记录kafka消费偏移量, 如果消费完毕将tmp后缀改为success, 第二次消费根据最后一个success后缀文件与kafka 接口计算出下次消费的偏移量数据数据 ,如消费的条数, 通过spark累加器计算executor处理失败的条数数据 针对流量数据等需要添加过滤功能, 避免测试数据或者大量的异常数据过来导致任务失败、消耗资源过多等情况,算是一个兜底的方案 , 可以根据时间字段过滤特定时间段数据 或者根据某个字段关键字进行过滤 小文件处理, 主要是在写入hdfs时候, 对写入数据进行repartition 操作,根据期望分区文件数(并行度),根据下面的 new Random().nextInt(parallelismPerPartiton) }) 总结 本文主要针对日志数据接入数据仓库场景进行设计, 同时介绍了下在设计接入时的一些细节,针对可能出现的问题进行必要的处理

    35440编辑于 2022-04-27
  • 来自专栏阿年的数据梦

    日记 - 数据采集平台

    数据流程图 三、用户行为数据采集模块 1. 环境准备 2. JDK安装 3. 业务数据生成 4. 业务数据导入HDFS • 项目经验 5. 数据流程图 三、用户行为数据采集模块 1. ,但因为数据保存在JVM的堆内存中,Agent进程挂掉会导致数据丢失,适用于对数据质量要求不高的需求。    业务数据生成 1)通过MySQL可视化工具连接MySQL 2)创建gmall数据库 3)运行数据库结构脚本(gmall2020-03-16.sql)   这个脚本会生成数据库的结构和一点数据

    3.2K20编辑于 2022-11-18
  • 来自专栏数据社

    浅谈数数据治理

    绝大数公司建立数之初是没有考虑好数据治理怎么做的,因为数据部门刚开始成立,必然要有一些“数据驱动”的成果,而数据治理不能很好的体现这些业绩。 从数据的采集到数据的加工,再到数据的应用(包括数报表数据、指标数据)。 那么对于业务数据源,我们要明确数中主要的数据源都来自哪些业务系统,哪些关键流程,明确关键来源数据数据负责人,结合业务制定数据管理规范。 02 数数据治理的思路 数数据治理可以从以下几个关键点入手:数据目录重新划分,提高模型复用度,ETL任务优化、数据质量监控。 那么关于数数据治理,到底什么时候开始做呢?欢迎大家留言讨论~

    84040编辑于 2022-05-26
  • 来自专栏暴走大数据

    潮汐猎人 | 数据仓库企业数拉链表制作​

    拉链表 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 我们可以使用这张表拿到最新的当天的最新数据以及之前的历史数据。 ? 缺点同样明显,没有历史数据,先翻翻旧账只能通过其它方式,比如从流水表里面抽。 方案二:每天保留一份全量的切片数据 每天一份全量的切片是一种比较稳妥的方案,而且历史数据也在。 保留部分历史数据,比如说我们一张表里面存放全量的拉链表数据,然后再对外暴露一张只提供近3个月数据的拉链表。 ? ? 责编 大数据真好玩 插画 大数据真好玩 封面图来源 大数据真好玩 [1] 2018年中国卫生健康统计年鉴 [2] 吴尚纯, 张文, 顾向应.

    79710发布于 2021-01-26
  • 来自专栏猫咪-9527

    【金数据库征文】——金数据库:国产数据库的卓越之选

    数据库(KingbaseES)作为国产数据库的杰出代表,凭借其先进的技术实力、广泛的应用场景以及强大的合作生态系统,正逐渐成为企业级应用的首选数据库解决方案。选择金数据库,意味着选择成功。 在这种情境下,金数据库在电信行业的应用,标志着国产数据库技术在高并发、高可靠性场景中的突破性进展。金数据库在中国三大运营商核心系统中的全面替代,成功支撑了大规模、复杂系统的日常运转。 金数据库凭借其出色的性能和可靠性,已经成功替代了许多国际知名数据库,成为国产数据库的代表之一。 金数据库的替代路径演进是一个从局部应用到全面渗透的过程。 最初,金数据库在某些小型项目中应用,逐步积累了经验并优化了产品性能。随着市场需求的变化,金数据库不断进行技术创新,提升了其在大数据、高并发、高可用性等关键领域的能力。 在金融行业中,金数据库的渗透率为58%。金融行业对数据库的高可用性、数据安全性和高性能要求极高,金数据库凭借其强大的事务处理能力和对大数据场景的支持,成功进入了金融行业的核心系统。

    59310编辑于 2025-06-02
  • 来自专栏小网管的运维之路

    hive数 - 数据抽取架构实践

    hive数 - 数据抽取架构实践 web sql DROP DATABASE IF EXISTS test; # 先删表再删库 DROP TABLE

    1.1K20发布于 2019-05-31
  • 来自专栏数据指象

    周瑜:数据,即有库何生

    数据库(OLTP)、数据(OLAP)是数据应用本身孵化出的孪生兄弟,却又代表数据应用的两面性。 1,技术栈不同 OLTP型数据库的典型代表是关系型数据库(mysql),它的数据存储在服务器本地的文件里,OLAP型数据库的典型代表是分布式文件系统(hive),它的数据存储在hdfs集群的文件里。 业务发展阶段(农耕):业务的重心开始偏向数据运营,看数据的需求变多了,基于OLTP型数据库做数据分析目标与OLTP本身的辅助交易目标的矛盾越来越突出。 同时依赖OLTP蜘蛛网模式的数据开发却对进一步的数据发现带来了三座大山:数据的可信性、生产的低效率、数据难以信息化。 业务快速增长(工业):大数据应用场景产生,需要数据给业务提效,就需要集成数据,夜间将OLTP型数据数据同步到OLAP型数据库利用建模理论构建数,业务系统数据与数系统做物理隔离,高效安全的支持业务的精细化数字化自动化运营

    38830编辑于 2022-04-27
  • 来自专栏JavaEdge

    离线数建设之数据导出

    为了方便报表应用使用数据,需将ADS各项指标统计结果导出到MySQL,方便熟悉 SQL 人员使用。 1 MySQL建库建表 1.1 创建数据库 创建car_data_report数据库: CREATE DATABASE IF NOT EXISTS car_data_report # 字符集 DEFAULT DataX作为数据导出工具,并选择HDFSReader和MySQLWriter作为数据源和目标。 "username": "root", // 数据库用户名 "password": "000000", // 数据库密码 "column": [ / root", // 数据库用户名 "password": "000000", // 数据库密码 "column": [ // 写入的列信息,包括 vin、mon、alarm_count

    42300编辑于 2024-05-26
  • 来自专栏sql与spec性能

    kingbase(金数据库安装

    666666)" kingbase挂载及安装mount -o loop KingbaseES_V008R006C007B0024_Sw64_install.iso /mnt接受许可设置安装路径安装设置数据目录 systemctl start kingbase8d.serviceps –ef | grep kingbase测试验证切换到/opt/kingbase/ES/V8/Server/bin目录下,创建HCJR数据

    1.1K30编辑于 2023-09-13
  • 来自专栏祝威廉

    数据中台和数的关系

    传统数 传统数有几个特点: 数据具有历史性 基于文件存储 以表为形态,自带元数据存储(比如Hive) 在数数据是其他数据的拷贝或者拷贝的加工 传统数需要拷贝数据的重要原因是因为基于数据和存储需要尽可能的近 所以我们需要把MySQL等数据源的数据同步到数,才能进行进一步处理,另外传统数更关注的是数据的历史状态,所以导致数据规模庞大。 数本身也具备计算能力,同时也可以作为存储供其他计算系统使用。 因为数据中台拥有这些数据源的适配器,所以相当于建立了互联管道。 我们知道数的优势是有元数据,通过表的方式很好的规整了数据数据需要加工,所以一般数是有分层的,往上走一层,数据信息损耗就高一些。 数据地图和传统数数据的区别在于, 它记录了散落在各个孤岛的数据,而不像传统数,只是在自己的数据数据格式是异构的,不仅仅是文件。 结论 数数据中台的一个重要组成部分,也是元数据的一个重要来源,但是随着技术的发展,数据和存储必定是分离的,这就需要一个新的元信息系统(数据地图)来进行承载。

    1.3K30发布于 2019-03-15
  • 来自专栏超级架构师

    数据数据湖和仓库:范式简介

    是时候将数据分析迁移到云端了——您选择数据仓库还是数据湖解决方案?了解这两种方法的优缺点。 数据分析平台正在转向云环境,例如亚马逊网络服务、微软 Azure 和谷歌云。 但是,数据仓库不太适合处理新类型的数据,通常称为大数据。问题是由于数据量、实时要求和类型多样性造成的,其中包括非结构化和半结构化数据。为了补充工具集,在过去十年左右开发了数据湖类型的解决方案。 数据仓库:以有组织的结构提供的已清理数据 对于数据仓库范式,基本方法是提供一个集中式产品,使数据能够存储在有组织的层次结构中,通常以数据库表的形式。 原则上,您可以纯粹在数据湖或基于数据仓库的解决方案上构建云数据分析平台。 我见过大量基于数据湖工具的功能齐全的平台。在这些情况下,可以使用特定于用例的数据数据集市来提供信息,而根本不需要数据仓库。 在处理青铜级和白银级数据时,在早期阶段利用基于数据湖的方法可能是有意义的。然后可以将数据存储在数据仓库中,以进一步组织成白银和黄金数据

    1.2K10编辑于 2022-03-08
  • 来自专栏数据猿

    【金猿国产化展】金数据库——数据库平替用金

    国产化·电科金 该国产化厂商奖项由电科金投递并参与金猿组委会×数据猿×上海大数据联盟共同推出的《2025大数据产业年度国产化优秀代表厂商》榜单/奖项评选。 大数据产业创新服务媒体 ——聚焦数据 · 改变商业 中电科金(北京)科技股份有限公司(简称“电科金”)成立于1999年,是成立最早的拥有自主知识产权的国产数据库企业,也是中国电科(CETC)成员企业 核心产品金数据库管理系统KingbaseES(简称“KES”)是面向全行业、全客户关键应用的企业级大型通用融合数据库,具备高性能、高安全、高可用等优势,广泛服务于能源、金融、电信、交通、医疗、政务等多个重点行业和关键领域 国产化/信创资质证明 根据中国信息安全测评中心发布的《安全可靠测评结果公告(2023年第1号)、(2024年第2号)》,金数据库管理系统V8.0、金数据库管理系统V9、金分布式HTAP数据库集群软件 核心国产化技术及产品方面的突破 金数据库创新采用“融合数据库”架构,立足于用户场景需求的“四个一体化”体系,从数据协议兼容、应用场景承载、多模数据处理到开发运维管理,直击数据迁移难、场景割裂、技术栈冗余等痛点

    26210编辑于 2026-01-05
  • 来自专栏全栈程序员必看

    建模—数据安全「建议收藏」

    数据安全 这里有一个背景就是中华人民共和国数据安全法的实施。为了规范数据处理活动,保障数据安全,促进数据开发利用,保护个人、组织的合法权益,维护国家主权、安全和发展利益,制定本法。 《中华人民共和国数据安全法》已由中华人民共和国第十三届全国人民代表大会常务委员会第二十九次会议于2021年6月10日通过,现予公布,自2021年9月1日起施行。 这里有几个定义我们关注一下,其他的可以去自行百度学习 本法所称数据,是指任何以电子或者其他方式对信息的记录。 数据处理,包括数据的收集、存储、使用、加工、传输、提供、公开等。 数据安全,是指通过采取必要措施,确保数据处于有效保护和合法利用的状态,以及具备保障持续安全状态的能力。 差分隐私 差分隐私是用来防范差分攻击的,差分隐私(英语:differential privacy)是密码学中的一种手段,旨在提供一种当从统计数据库查询时,最大化数据查询的准确性,同时最大限度减少识别其记录的机会

    54610编辑于 2022-08-31
领券