首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • CDH离线实操

    链接:https://github.com/markgrover/cloudcon-hive

    47010编辑于 2024-12-27
  • 来自专栏JavaEdge

    离线建设之数据导出

    ads_alarm_stat_last_month为例: { "job": { "setting": { "speed": { "channel": 1 // DataX 作业的并发通道

    39500编辑于 2024-05-26
  • 来自专栏全栈程序员必看

    离线和实时数架构与设计

    前言:离线和实时数架构与设计讲解 离线和实时数架构与设计 一、架构演变(场景驱动) 二、离线大数据架构 三、离线分层 四、离线大数据架构典型案例 1、Lambda架构 1.Lambda 架构存在的问题 2、Kappa架构 1.Kappa架构典型案例 2.Kappa架构典型案例(一Kylin为例) 3.Kappa架构的重新处理过程 3、Lambda架构 vs Kappa架构的对比 4、实时数 vs 离线 5、实际业务中如何选择呢 6、现状:混合架构大行其道 7、的发展趋势 五、疑问解答与加群交流学习 一、架构演变(场景驱动) 二、离线大数据架构 三、离线分层 四、离线大数据架构典型案例 2、Kappa架构 1.Kappa架构典型案例 2.Kappa架构典型案例(一Kylin为例) 3.Kappa架构的重新处理过程 3、Lambda架构 vs Kappa架构的对比 4、实时数 vs 离线 5、实际业务中如何选择呢 6、现状:混合架构大行其道 7、的发展趋势 发布者:全栈程序员栈长,转载请注明出处:https://javaforall.cn/142435.html

    1.7K31编辑于 2022-08-25
  • 来自专栏大数据开发

    大数据开发:离线与实时数

    1、离线 离线,其实简单点来说,就是原来的传统,数据以T+1的形式计算好放在那里,给前台的各种分析应用提供算好的数据。到了大数据时代,这种模式被称为“大数据的批处理”。 数据采集:flume/logstash+kafka,替代传统的FTP; 批量数据同步:Sqoop、Kettle,跟传统一样用Kettle,部分商用ETL工具也开始支持大数据集群; 大数据存储:Hadoop HDFS/Hive、TiDB、GP等MPP,替代传统的Oracle、MySQL、MS SQL、DB2等; 大数据计算引擎:MapReduce、Spark、Tez,替代传统的数据库执行引擎; OLAP 2、实时数 实时数最开始是在日志数据分析业务中被广泛使用,后来在各种实时战报大屏的推动,实时数开始应用。 与离线计算相比,实时计算减少了数据落地,替换了数据计算引擎,目前纯流式数据处理基本上就只有Spark Streaming了,而Flink是批流一体的。

    5.3K11发布于 2021-06-09
  • 来自专栏肉眼品世界

    如何搭建Spark离线(PPT)

    1.4K11编辑于 2022-06-15
  • 来自专栏暴走大数据

    离线从0到1

    对于而言,又何尝不是?互联网的发展,导致大数据的人才缺口。互联网公司雨后春笋,传统行业机巧转身。短短几年,数据行业已沧海桑田。 建设 什么是,为什么建设,怎么建设?(我是谁,我从哪里来,我到哪里去) Inmon将数据仓库定义为:在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。 系统层面 etl过程:打通你的任督二脉(离线+实时),让数据在整个环节中流通起来 数据分层:一套(低耦合、高内聚)的层级,是十分重要的。 与分析/业务握手:下游服务,需求方是多个的,即可能是分析,也可能是运营/boss,先理解他们,在让他们理解你 迭代数:只要业务在发展,就需要不断更新;响应业务变化,丰富数据模型 个人角色 责任: 从大局出发,看待建设,要考虑与源数据的交互,质量的监控,如何对外提供数据服务等。而在这些工作中,模型的建设可以说是灵魂式的存在。

    1.8K22发布于 2019-08-30
  • 来自专栏Spark学习技巧

    美团外卖离线建设实践

    本文主要介绍美团外卖离线的历史发展历程,在发展过程中碰到的痛点问题,以及针对痛点做的一系列优化解决方案。 01 业务介绍 ? 数据加工层:使用 Spark、Hive 构建离线、使用 Storm、 Flink 实时数。 02 建设 1. 数据仓库V1.0 ? 2016 年之前。 2.1 规范 ① 数据仓库建模规范 ? 面对这个问题,我们在 2019 年对数进行了新的迭代,即 V3.0,下面将对此做详细介绍。 3. 数据仓库V3.0 ? 总体愿景: 3.0 优化思路主要是使用建模工具替代人工开发。

    1.9K21发布于 2021-03-05
  • 来自专栏全栈程序员必看

    漫谈大数据 – 基于SparkSQL的离线

    目录 知识补充 离线的分层设计 数据分层 ODS 数据分层 DW 数据分层 APP 数据建模 ---- 知识补充 在正式阅读之前,首先需要理解以下基本概念以帮助你更好的了解数据仓库: 业务板块:比数据域更高维度的业务划分方法 离线的分层设计 传统为什么要分层呢? 清晰数据结构:每一个数据分层都有它的作用域,这样我们在使用表的时候能更方便地定位和理解。 用于离线数据分析场景,是否需要支持实时分析?可能涉及复杂查询?需要支持上层报表系统,是否开放给非技术人员使用? 业务部门目前有没有明确的数据需求,半年内是否有数据监测分析和指标统计等需求? Hadoop集群可以进行水平扩展(scale out) PG加上proxy 也可以水平分片 除了引擎,外围系统同样需要考虑数据规模 除了数据规模,还需要考虑租户用量 之后就是易用性、运维等等 再之后我们搭建分层和引擎架构 sparksql在其中有自己的架构体系: 最后我们来看一个真实的架构: 写在最后,数据仓库也是很多表组成的,请永远记住什么是数据仓库?

    82420编辑于 2022-11-17
  • 来自专栏五分钟学大数据

    结合公司业务分析离线建设

    建设 到这才真正到建设,为什么前面要占那么大篇幅去介绍公司业务及所使用的数据中台系统,因为下面的建设是根据公司的业务发展及现有的数据中台进行,的建设离不开公司的业务。 ? 智能规划 建设核心思想:从设计、开发、部署和使用层面,避免重复建设和指标冗余建设,从而保障数据口径的规范和统一,最终实现数据资产全链路关联、提供标准数据输出以及建立统一的数据公共层。 有了核心思想,那怎么开始建设,有句话说建设者即是技术专家,也是大半个业务专家,所以采用的方式就是需求推动数据建设,并且因为数据中台,所以各业务知识体系比较集中,各业务数据不再分散,加快了建设速度 理想的模型设计应当具备:数据模型可复⽤,完善且规范。 尽量避免一层的表生成当前层的表,如dw层表生成dw层表,这样会影响ETL效率。 禁止出现反向依赖,如dw表依赖于dm表。 数据应用层 数据应用层的表就是提供给用户使用的,建设到此就接近尾声了,接下来就根据不同的需求进行不同的取,如直接进行报表展示,或提供给数据分析的同事所需的数据,或其他的业务支撑。

    88210发布于 2021-03-04
  • 来自专栏小四的技术文章

    大数据技术栈之-离线构建

    前言 上一篇说了实时数并写了一个简单的例子,这些主要来说离线,数据到达kafka后,走了实时和离线两条路,离线条路线的主要流程是采集kafka的数据HDFS中,然后使用Hive进行数的建设,因为我们数据来源可能是第三方 API,IOT还有其他一些渠道,还有直接从数据库同步过来,那么数据库的数据我们离线这边可能直接使用DataX这种工具同步到HDFS了,就不经过Kafka了,而其他的数据才经过kafka,然后再使用采集程序将数据采集到 建模 建模分为关系建模和维度建模,关系建模就是按照三范式规范来进行表的设计,我们知道3NF通过实体和关系进行连接,降低了数据的冗余,但是很多时候我们为了效率,不会完全遵守3NF,而维度模型以数据分析作为出发点 分层设计 设计是分层设计,分为了ODS层,DWD层,DWS层,ADS层等,不过对于层次的划分,我觉得完全是根据业务需求去划分,不可能去照搬,可能所有层次都需要用到,也可能只用到其中几层,甚至可能数据到了

    1.6K11编辑于 2023-03-02
  • 来自专栏大数据-BigData

    网易严选离线质量建设实践

    本篇将以严选为例,从建设目标、保障措施、效果评价等几方面探讨质量建设。 1 ‍保障等级确认‍ 网易严选离线目前主要基于有数大数据平台进行调度及管理(Azkban),FLOW数量4000+,首先我们要做的事情就是从中识别出每个任务的重要程度,以此确定保障的策略。 及时性 及时性指业务需要看时,要有数可看,具体落实下来就是的FLOW要能稳定按时产出。 3 数据质量实施策略 针对前面提到的建设目标,目前主要有以下策略。 的数据来自于上游业务系统,上游系统的逻辑变更必然对数造成影响。 作者简介 冯楚,网易严选资深数据开发工程师,主要负责供应链数据建模及离线质量治理相关工作。 分享,点赞,在看,安排一下?

    52210编辑于 2022-06-27
  • 来自专栏大数据学习与分享

    企业级离线分层设计和演化之路

    免责声明:本公众号所发布的文章为本公众号原创,或者是在网络搜索到的优秀文章进行的编辑整理,文章版权归原作者所有,仅供读者朋友们学习、参考。对于分享的非原创文章,有些因为无法找到真正来源,如果标错来源或者对于文章中所使用的图片、连接等所包含但不限于软件、资料等,如有侵权,请直接联系后台,说明具体的文章,后台会尽快删除。给您带来的不便,深表歉意。

    35031编辑于 2022-12-12
  • 来自专栏大数据解决方案

    企业是如何选择技术栈来做离线

    前言 最近在跟一位粉丝聊天,聊起来了做离线时该用那些技术栈。于是根据我的经验和参考一些资料于就有本篇文章。在这里我会分享三个案例,仅供参考。 ? 案例一、小型公司 首先我们要明白一点小型公司人员并不多其次服务器的配置有不是很高,这时如果要做使用到的大数据组件就不可能了,那我们就使用传统数据库来进行讲解。 ,分别在oracle中构构建四层分别为 ods、dwd、dws、ads这里我就不介绍分层概念了最后的整体架构如下:数据库:Oracle 数据同步 :kettle 数据展示:大屏展示,Superset 案例二、中型公司 首先中型公司做离线并不单纯的做,你将你数据存放在数中通报表的形式展示在大屏中,体现不出的价值,可以通过这个些数据做一个用户画像。 我在这里举一个不恰到的例子:比如数的中的数据没有被利用起来,我购买了一个商品在后台报表中加上我刚刚下单的这一条数据(死数据),只是报表发生了改变但是对于公司而是价值不大,这时我们是不是可用基于做一个用户画像

    1.2K10发布于 2021-02-04
  • 来自专栏WHYBIGDATA公众号同步文章

    离线之Kerberos基本使用及问题记录

    离线之Kerberos基本使用及问题记录 0. 写在前面 1. Kerberos基本使用 0. 启动Kerberos相关服务 1. 安全模式下启动Hadoop集群 2. 所以连接不上之前分层时在DataGrip创建的Hive数据源。 ❞ ---- 1. 新建driver 2. 配置Driver 3. 新建连接 4.

    1.1K30编辑于 2023-01-31
  • 来自专栏Spark学习技巧

    60+张PPT,教你如何搭建Spark离线

    90040编辑于 2023-03-21
  • 实时数离线还分不清楚?看完就懂了

    一、什么是离线一句话理解:离线是一个专门用来存储和处理批处理数据的系统。它的数据处理和分析都是基于批处理作业来进行的,主要靠sqoop、hive这些技术来搭建,处理的是T+1的离线数据。 三、实时数离线的区别看到这里,你可能会好奇,实时数离线具体有哪些不一样的地方?别急,这部分就来详细说说它们的区别,帮你更清晰地分辨两者。 1.架构上实时数离线区别挺明显的,实时数主要用Kappa架构,离线则以传统大数据架构为主。Lambda架构可以算是两者的中间态。 2.建设方法上实时数离线基本还是沿用传统的主题建模理论,产出事实宽表。另外,实时数中实时流数据的join有隐藏的时间语义,建设的时候可得注意了。如果觉得自建麻烦,可以考虑借助成熟工具。 明确区分并合理运用实时与离线能力,是最大化数据价值、赋能敏捷决策的基础。

    60310编辑于 2025-08-18
  • 来自专栏数据指象

    名,懂

    做数据开发不能绕过数据仓库的建设,是数据分析/数据挖掘的基础料,更是描述一个企业蓝图的智库。 如何打造出一个反映企业全局的视图是“路漫漫其修远兮”的任重远道; 在数据公众号“数据指象”的上一篇推文《矛盾的演进之旅》中,描述了由简入繁的其中道理。今天我们接着了解数的名义。 数据集成性:集成是最重要的特点之一,也是突出与传统数据库的特性之一;没有集成数就没有价值;只有将:同义不同名、同名不同义、多数据源、码值分解等等杂乱无章的数据,以集成就行统一、进行归一、进行编排形成一致性统一的的 非易失性:不易丢失数据是的基本属性,承接经年累月的数据输入,保存历史的数据细节,在时间的作用慢慢地聚沙成塔,让微小的数据也能发出耀眼的光芒。 具体中粒度如何选择,后续将分享如何构建双粒度数 周末快乐

    81720编辑于 2022-04-27
  • 技术指南:将离线平滑迁移到大数据平台

    摘要 本技术指南旨在指导企业如何将现有的离线平滑迁移到大数据平台,以实现性能提升、成本节约和数据治理优化。 技术解析 核心价值与典型场景 离线迁移到大数据平台的核心价值在于提升数据处理性能、降低运营成本并强化数据治理。典型场景包括数据驱动型企业的业务分析、实时决策支持和大规模数据处理。 数据迁移与转换 原理说明:将数据从离线迁移到大数据平台,并进行必要的数据格式转换。 操作示例:利用腾讯云COS的自动转储功能,将历史数据自动转储到COS,减少迁移复杂性。 3. 有限的性能提升 性能提升10~100倍 成本节约 无明显节约 按需付费,数据高压缩比 数据治理 治理能力有限 完善的数据处理和治理能力 场景化案例 来源:某金融企业通过腾讯云TKE和WeData成功将离线迁移到大数据平台 通过本技术指南,企业可以清晰地了解如何将离线平滑迁移到大数据平台,并利用腾讯云产品实现性能提升、成本节约和数据治理优化。

    28410编辑于 2025-07-28
  • 离线开发平台-HTTP数据同步到Doris能力演示

    DolphinScheduler建设 DolphinScheduler 是一个功能强大的分布式任务调度平台,支持复杂工作流编排、任务监控与告警,适用于离线数据处理场景。 二、离线开发平台功能特点 分布式易扩展架构可视化DAG工作流编排多租户与权限管理任务类型丰富高可靠性与容错机制灵活的调度策略任务状态监控与日志数据源集成能力版本控制与状态管理生态兼容性部署步骤:一、源码获取 4.6 启动服务启动Zookeeper(如果尚未启动):启动DolphinScheduler服务:验证服务是否启动成功:一、离线开发平台-功能概览 二、离线开发平台-项目管理 三、进入工作流页面 四、 十、Http数据同步到Doris实时数,启动Http到Doris任务同步工作流十一、Http数据同步到Doris实时数,上线Http到Doris同步任务工作流 十二、Http数据同步到Doris实时数 ,定时抽取Http数据到Doris数据仓库 十三、Http数据同步到Doris实时数任务执行成功,同步数据成功十四、Http数据同步到Doris实时数任务日志,查看同步操作记录十五、Http数据同步到

    36310编辑于 2025-08-26
  • 入门篇-分层

    整体架构图解直接看分层的整体层级图各层级详解ODS层-操作数据层定义:数据仓库的“缓冲区”或“贴源层”。 核心作用:隔离风险:避免复杂的清洗逻辑直接影响源系统,也避免源系统变更直接击穿。历史回溯:源系统通常只保留近期数据或覆盖更新,ODS层通过全量或增量快照保留历史状态。 它是的字典中心,确保全公司对于用户、商品、城市的定义是统一的。核心作用:统一口径:避免不同报表中“北京市”和“北京”被算作两个城市。 DWD层-明细数据层定义:的核心层。基于ODS数据进行清洗、规范化、脱敏、维度关联后生成的明细事实表。核心作用:数据清洗:去除脏数据、统一枚举值(如性别统一为0/1)、空值填充。

    15610编辑于 2026-03-13
领券