首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏SQL查询优化

    SQL多维分析

    OLAP(Online analytical processing) 联机分析处理:是计算机技术中快速解决多维分析问题(MDA, multi-dimensional analytical)的一种方法。 多维分析中数据通常以立方体(Cube)形式存储,Cube可理解为一组多维数据集,即多个维度构成的数据集,可由多个维度中的维度成员交叉形成单元格数据组成。 分析算子 以下将以Spark SQL举例,说明ROLAP中常用的多维分析算子 GROUP BY GROUP BY 子句通过一组指定的分组表达式对行数据分组,并基于一个或多个聚合函数在对应行进行聚合计算, (ARRAY(30, 60)) tableName AS c_age LATERAL VIEW EXPLODE(ARRAY(40, 80)) AS d_age; 总结 OLAP(在线分析处理)多维分析技术在智能商业 多维分析的核心概念是将数据按照不同的属性或特征进行组织,以便用户可以从不同层面深入了解数据的内在联系和潜在价值。 推荐阅读 [1] Edgar F Codd. 1993.

    1.8K75编辑于 2024-07-08
  • 来自专栏祝威廉

    SparkES 多维分析引擎设计

    其列式存储可以有效的支持高效的聚合类查询,譬如groupBy等操作,分布式存储则提升了处理的数据规模。

    1.1K30发布于 2018-08-27
  • 来自专栏复盘总结文章集合

    详谈项目集成OLAP多维分析报表JPivot并实现多维分析平台自主化

    打开tomcat文件夹去除WEB-INF\lib下的重复JAR包,保留最新jar版本包

    1.1K30发布于 2019-05-28
  • 来自专栏应用计算

    ChatBI 不止 Text2SQL,加上多维分析才算全链 AI+ 商业智能

    但市面上许多“chatBI”方案,能力往往止步于 Text2SQL——也就是听懂一句话、查出一张表。 因为,对大多数基于 LLM 的 ChatBI 方案而言,Text2SQL 的准确性尚未解决,还顾不上琢磨后半截。 而且,既使想做多维分析,也会发现无从下手。 它基于已在 Text2SQL 场景中得到验证的润乾 NLQ 规则引擎( 万字长文解析 Text2SQL 破局,兼得灵活复杂准确 ),将“自然语言转精准操作”的能力,从数据查询无缝延伸至后续的多维分析阶段 数据过滤支持了条件形式,我们还可以做数据过滤,也就是多维分析中常见的切片 / 切块。

    20110编辑于 2026-01-14
  • 来自专栏数据仓库践行者

    spark sql多维分析优化——细节是魔鬼

    这次是分享一个多维分析优化的案例 【本文大纲】 业务背景 spark sql处理count distinct的原理 spark sql 处理 grouping sets的原理 优化过程及效果 总结 1 (if ((gid#147005 = 2)) table_a. a.child) ..... } 3、spark sql 处理 grouping sets grouping sets 、rollup 、cube 是用来处理多维分析的函数 总共四个Job 最慢的是1和2。 ? ? 优化后只用5分钟,棒棒哒~~ 5、总结 总体来说,expand 方式适合维度小的多维分析,这是因为 expand 方式读取数据的次数只有一次,但数据会膨胀n倍。

    4.8K70发布于 2020-04-20
  • 多维分析场景下主流OLAP引擎横向评测

    本文以“多维分析”为核心维度,对腾讯云TCHouse-D、StarRocks、Apache Doris三款热门引擎进行对比分析,帮助架构师快速完成技术选型。 功能亮点 支持高并发多维分析,行列混存+智能索引,实现毫秒级钻取、上卷、切片;在线Schema变更、预计算物化视图降低查询延迟;跨AZ三副本高可用。 功能亮点 CBO+向量化执行,支持高并发多维分析,万级QPS下钻取延迟稳定在亚秒级;物化视图自动刷新,支持Bitmap、HyperLogLog 等高阶去重分析。 功能亮点 列式存储+向量化执行,支持高并发多维分析;内置轻量级预聚合、Bitmap/ZoneMap索引,实现毫秒级切片;多租户资源组隔离。 技术团队可从生态依赖、交付周期、运维投入与成本模型四维度综合权衡,实现多维分析能力的最佳性价比。

    62210编辑于 2025-08-06
  • 来自专栏腾讯大数据的专栏

    直播预告 | 腾讯新一代多维分析引擎MercsDB

    6月11日9点,腾讯大数据将联合DataFun举办:多维分析架构峰会。腾讯数据平台部总监陈鹏将担任峰会的荣誉主席,计算平台组负责人陈奕安将担任峰会的主席。 本次峰会共设置9大主题论坛,来自腾讯的技术专家龙跃将担任新一代 MPP 数据库架构论坛出品人并作《腾讯新一代多维分析引擎MercsDB》主题分享。 本次峰会精彩纷呈,内容上既涵盖了开源多维分析、新一代MPP数据库架构、数据湖分析型架构、实时多维分析等核心技术,也包含金融、互联网、交通、物流、工业、画像、营销等多个应用场景的实践经验。 演讲主题:腾讯新一代多维分析引擎 MercsDB 演讲提纲: 1. MercsDB 背景 2. MercsDB 架构:与 Presto 的高效融合 3. 腾讯自研引擎 MercsDB 的优势和应用场景 2. 索引在多种查询中提供哪些性能优势 3. Vector API 在向量化计算中的应用

    1.2K30编辑于 2022-06-10
  • 来自专栏数据仓库践行者

    spark sql多维分析优化——提高读取文件的并行度

    这次分享多维分析优化的另一种情况 【本文大纲】 1、描述问题背景 2、讲一下解决思路 3、解决办法(spark sql处理parquet row group原理及分区原理,参数测试,解决方案) 4、效果 从上面可以看到,数据过滤后是582w,经过两次expand 后,变成了4.6个亿,4.6个亿的量本来不算大,但因为只有2个task在处理,就显的异常的慢 2、解决思路 解决多维分析的办法一般是:把逻辑拆开 ,分别计算指标,然后再 join 起来,这个也是上一篇【spark sql多维分析优化——细节是魔鬼】用到的一个办法。 parquet.block.size 是可以依据实际使用情况来调优的,对于做多维分析表,可以设置稍小一点。 2分40秒就能完成,有没有棒棒哒?

    3K60发布于 2020-04-18
  • 来自专栏数据派THU

    数据蒋堂 | 多维分析预汇总的方案探讨

    本文与你探讨多维分析初始状态时该预先汇总哪些组合。 我们在《多维分析预汇总的存储容量》中计算过,如果想做到O(1)的复杂度,至少要考虑界面用到的各种维度组合,这在维度总量稍多一点时就不可行了。 多维分析性能优化的目标是前端反应速度,如果中间CUBE仍然很大,那么再聚合也会比较慢,这时候,这些再聚合的结果也可以作为一些新的中间CUBE保存起来。 经过这些处理后,我们虽然无法完全做到O(1)复杂度,但常常也能把计算性能从全量硬遍历提高几十倍甚至上百倍,这对于大多数多维分析场景已经足够了。 ---- 我们还在《多维分析预汇总的功能盲区》中说过几种情况无法通过预汇总来提高性能。 那么我们只要基于预汇总数据计算2月到8月的聚合值,再使用原始CUBE计算1月22日到1月31日和9月1日到9月8日的聚合值,涉及的计算量是7(2月-8月)+10(1月22日-1月31日)+8(9月1日-

    71730发布于 2019-05-09
  • YashanDB数据库多维分析功能及应用实践

    传统数据库往往面临性能瓶颈、数据一致性问题等挑战,而YashanDB的多维分析功能为这些问题提供了解决方案。 本文旨在深入探讨YashanDB的多维分析功能,明晰其技术原理,并为希望提升数据分析能力的技术人员和数据库管理员提供实用的指导。 YashanDB的多维分析体系架构YashanDB采用了独特的多维数据存储架构和复杂查询优化技术,使得其在海量数据环境下的多维分析能力得到充分发挥。 技术优势YashanDB的多维分析功能的主要优势体现在:高性能: 采用了行、列存储结合的方式,通过高效的内存管理和磁盘I/O策略,使得查询响应速度大幅提升。 应用实例与实践建议在实际应用中,YashanDB的多维分析功能被广泛应用于业务智能、市场分析、用户行为分析等多个场景。

    11400编辑于 2025-07-04
  • 来自专栏腾讯云大数据

    新型多维分析架构全揭秘!

    演讲主题:流批一体的实时多维分析 演讲提纲: 1. 大数据架构演进 2. 流批一体方案 3. 关键问题突破 4. 后续规划 听众收益: 1. 大数据架构如何选型? 2. 流批一体怎么做? 3. 演讲主题:多维分析在云音乐社交创新业务的应用 演讲提纲: 1. 业务背景介绍 2. 多维分析场景介绍 3. 多维分析的意义 4. 多维分析的数据底座 5. 未来构想 听众收益: 1. 多维分析在云音乐创新业务场景是如何应用的? 2. 自助多维分析对数仓意味着什么? 3. 如何用更好的数仓模型设计方法去支撑多维分析应用场景? 演讲主题:多维数据分析平台在37手游的技术演进 演讲提纲: 1. 37手游的业务特点简介 2. 37手游多维分析技术演进 3. 多维分析平台建设过程中的经验与教训 4. 演讲主题:游族多维分析场景与落地实践 演讲提纲: 1. 多维分析场景 2. 技术选型与架构 3. 难点与解决方案 听众收益: 1. OLAP 如何选型? 2. 实时指标如何做到准确性与实时性的平衡?

    5.9K10编辑于 2022-06-08
  • 来自专栏Java成神之路

    Saiku_学习_03_Saiku+Kylin构建多维分析OLAP平台

     一、技术选型 参见:Saiku+Kylin多维分析平台探索 1.saiku Saiku 作为分析平台,提供可视化的操作,能方便的对数据进行查询、分析,并提供图形化显示 2.kylin Kylin 作为分析引擎 3.Saiku + Kylin 实现多维分析 Saiku 根据用户在页面的操作,生成 MDX,然后,Mondrian根据MDX生成查询语句SQL, 而 Kylin 可以根据SQL 查询 cube,快速得到结果 二、Kylin安装部署 七、参考资料 1.mustangore/kylin-mondrian-interaction 2.Saiku+Kylin多维分析平台探索

    1.2K20发布于 2018-08-10
  • 来自专栏九州牧云

    滴滴 x StarRocks:极速多维分析创造更大的业务价值

    技术选型 电商场景的流量日志、行为日志一般会比传统场景下的数据量大很多,因此在这样的背景下做漏斗分析给我们带来了两大技术挑战: 日增数据量大:日增千万级数据,支持灵活选择维度,如何快速地对亿级数据量进行多维分析 ,对应用层屏蔽复杂的数据格式,对埋点日志进行校验和简单地清洗、转换后,将日志数据推送到Kafka集群 (2)Kafka集群: 数据接入总线与数据计算集群的中间层。 生成全局ID:用全局字典表中当前的最大用户ID加上新增用户的行号 (row_number() over(order by t1.user_id) + t2.max_id) as new_user_id new_user_id, (max(new_user_id) over()) as max_id from global_dict_by_userid_hive_table ) t2 on t1.user_id = t2.user_id where t2.newuser_id is null 3、 原始表和更新后的全局字典表进行left join , 将新增用户的ID和编码后的整型用户

    1K20发布于 2021-09-29
  • Doris 是如何支持多维分析的?什么是预聚合?

    在 Apache Doris 中,多维分析(OLAP)是一种重要的功能,它允许用户从多个维度对数据进行查询和分析。 Doris 通过多种技术手段支持多维分析,包括预聚合(Pre-Aggregation)、物化视图(Materialized Views)和索引优化等。 多维分析支持预聚合(Pre-Aggregation)预聚合是指在数据写入时,系统自动计算并存储一些常用的聚合结果,以便在查询时能够快速返回结果。预聚合可以显著提高查询性能,特别是在处理大量数据时。 示例:CREATE TABLE sales ( id INT, sale_date DATE, amount DECIMAL(10, 2), region VARCHAR(50) 这些技术共同作用,使得 Doris 能够在处理大规模数据时提供快速、灵活的多维分析能力。

    50710编辑于 2025-01-26
  • 来自专栏葡萄城控件技术团队

    SpreadJS集算表联动数据透视表,高效实现前端数据多维分析

    本文围绕数据设置及分析,整合SpreadJS中集算表及数据透视表功能,提供一种纯前端高效能数据多维分析方案。 本文中,测试接口由Postman模拟生成,对应的接口为“https://9a288081-e4c6-4468-8228-b2fefad890c1.mock.pstmn.io/getOrder”,返回数据字段为

    1.2K40编辑于 2022-12-25
  • YashanDB数据库支持的多维分析与智能报表功能

    企业需要快速从海量数据中提取有价值的信息以支持决策,因而多维分析和智能报表功能成为了数据库系统的重要组成部分。 YashanDB通过其先进的体系结构和存储引擎,提供了高效的多维分析与智能报表功能,可以帮助企业更好地完成数据分析和报表生成任务。 多维分析支持YashanDB在多维分析方面具备强大的功能,主要体现于数据建模、数据查询和分析性能等几个方面。它支持星型和雪花模型的关键能力,允许用户利用多维数据结构存储和查询数据。 同时,借助多版本并发控制(MVCC)技术,确保在执行多维分析时不发生阻塞,使得用户可以在高并发环境下流畅访问数据。 结论YashanDB通过支持多维分析与智能报表功能,凸显了其在数据处理与分析领域的先进性。

    15800编辑于 2025-07-07
  • 数据仓库多维分析利器:哪些产品支持ROLLUP和CUBE语句?

    如果分析"产品-地区-时间"三个维度,CUBE会生成2³=8种聚合组合,包括各维度的单独汇总和交叉汇总。 三、腾讯云TCHouse-D:多维分析的理想选择 在众多支持ROLLUP和CUBE的数据仓库产品中,腾讯云数据仓库TCHouse-D凭借其独特优势脱颖而出,成为企业多维分析场景的理想选择。 用户可以使用熟悉的SQL语句进行复杂多维分析,无需学习新的查询语言。 卓越的性能表现:通过向量化执行引擎和智能查询优化器,TCHouse-D在处理PB级数据的多维聚合查询时仍能保持亚秒级响应。 2.实际应用场景 在实际业务中,TCHouse-D的多维分析能力为企业带来了显著价值: 零售行业销售分析:某大型零售企业使用TCHouse-D构建实时数据仓库,通过ROLLUP功能实现了"全国-大区-省份 腾讯云TCHouse-D正是这样一个能够平衡性能、功能与成本的多维分析利器。

    9310编辑于 2026-04-01
  • 解锁广告投放新维度:如何用腾讯云TCHouse-P实现高效多维分析

    而腾讯云数据仓库 TCHouse-P 的出现,为广告多维分析提供了一种简单、快速且经济高效的PB级云端解决方案。 二、四步构建广告多维分析平台 使用 TCHouse-P 进行广告多维分析,可以遵循以下路径: 数据汇聚与集成:首先,通过数据同步工具或ETL流程,将来自广告平台API(如腾讯广告、巨量引擎)、网站分析工具 例如,可以建立以“广告活动”为核心的事实表,关联“时间”、“地域”、“用户画像”、“广告素材”、“投放渠道”等多个维度表,为多维分析打下基础。 四、结语 在数据驱动的营销时代,高效的广告多维分析不再是大型企业的专利。

    12410编辑于 2026-03-31
  • 来自专栏一臻数据

    Doris聚合多维分析:让你的数据会说话,让数据更懂业务的艺术

    Doris多维分析:让你的数据会"说话" 互联网行业里流传着这样一句话:"数据分析就像是给企业装上了一双透视眼,而其维度层级决定视力好坏"。 Doris作为新一代高性能MPP数据库,提供了强大的多维分析功能。 这正是Doris多维分析的典型应用场景。 那么,Doris是如何支持高效的多维分析? d_date_sk = ss_sold_date_sk AND YEAR(d_date) IN (2001, 2002) AND MONTH(d_date) IN (1, 2, 通过研究Doris的多维分析特性,他发现了一个关键点:合理使用GROUPING_ID能显著提升查询效率。

    73210编辑于 2024-12-24
  • 来自专栏腾讯大讲堂的专栏

    【腾讯微视】百亿数据、上百维度、秒级查询的多维分析场景的实践方案

    除此之外,希望在微信小程序查看多维分析报表,从数据中发掘出更多的价值。 因此急需建设一个多维分析平台,解决目前的业务痛点。 2. 产品介绍 最终我们开发了一个归因分析平台,产品演示如下: 特殊说明:1.展示数据经过脱敏处理;2.为了演示直接使用了已运行好的报表。 首先我们来看一下一棵多维分析树是如果查询数据的。上面是一棵多维分析树,m1代表指标,例如DAU、总时长等,D1代表维度,例如城市、首启方式等。 聚合层:解析多维分析树,拆分为多个cube,按照cube到聚合层查询数据,根据聚合指标的计算逻辑计算出指标绝对值,构造出一颗多维分析树。 假设有以下数据: 城市 消费层次 渠道 qimei 北京 低 c1 10 北京 低 c2 20 北京 中 c2 30 北京 中 c4 40 上海 高 c1 50 上海 高 c3 60 现在计算DAU=

    2.4K20发布于 2021-03-15
领券