首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏Spark学习技巧

    初识PB级数据分析利器Prestodb

    初始PB级数据分析利器Prestodb 什么是prestodb prestodb整体架构 物理执行计划 什么是prestodb prestodb,是facebook开源的一款sql on hadoop系统

    2.9K50发布于 2018-01-31
  • 基于 StarRocks + Iceberg,TRM Labs 构建 PB 级数据分析平台实践

    作者:Vijay Shekhawat:TRM Labs 数据平台团队核心成员,精通实时流处理、数据湖仓架构及构建安全、高吞吐的数据分析管道,在推动 PB 级数据处理能力方面发挥了关键作用。 作为一家致力于打击加密金融犯罪的技术公司,TRM Labs 为全球金融机构、加密企业与政府部门提供链上数据分析与情报支持。 其平台需处理来自 30 多条区块链的 PB 级数据,并以亚秒级响应支撑每分钟超过 500 次的查询请求。 基于使用 BigQuery 和 Postgres 的经验,总结出以下几点关键观察:查询时尽量减少数据读取量至关重要,可通过数据压缩、聚簇与分区优化扫描效率;传统的 B-tree 索引在 PB 级别数据下效率低下

    70910编辑于 2025-06-02
  • 来自专栏腾讯云大数据

    PB 级数据的云端迁移战事

    如果单纯从字面上,普通人可能无法理解要把 PB 级的数据迁移到一朵云上,难度有多大。 “这个迁移和简单的复制完全不一样,即便是拷贝,把1PB 的数据复制过来,也需要很长时间。” 但随着游戏业务迁移上云和数据规模、维度的快速增长,数据分析任务日渐繁重和多态化,对数据处理的时效性和稳定性要求越来越高,搜狐畅游亟需通过更灵活稳定的大数据基础能力建设,提升大数据的分析、管理和运维,为游戏稳定流畅运行 “在这过程中,搜狐畅游大数据团队除了介绍业务特点,业务技术架构等情况,结合多年积累 Impala 在游戏场景数据分析的经验,提出优化假设。 当然,最终没有发生任何问题,PB 级的数据在7月中旬正式迁移到腾讯云。

    2K30发布于 2021-09-18
  • 揭秘腾讯云TCHouse-D存储引擎:如何实现亚秒级PB级数据分析

    在数据爆炸式增长的时代,企业对于实时数据分析的需求日益迫切。 默认情况下,每个Tablet大小推荐控制在1GB-10GB之间,通过哈希或随机方式切分形成。 默认使用LZ4压缩算法,可将数据压缩至原始大小的1/5~1/10,让TCHouse-D在相同硬件条件下存储容量提升5-10倍,计算时的数据加载速度提升3-5倍。 从分层存储架构到列式存储优化,从多级索引机制到智能编码压缩,每一个设计细节都旨在为企业提供极致的数据分析体验。 在2026年AI算力需求激增、云服务价格普遍上涨的背景下,TCHouse-D以弹性伸缩、按需付费的模式,为企业提供了高性价比的实时数据分析解决方案。

    20210编辑于 2026-03-20
  • 来自专栏ApacheHudi

    Uber基于Apache Hudi构建PB级数据湖实践

    什么是Apache Hudi Apache Hudi是一个存储抽象框架,可帮助组织构建和管理PB级数据湖,通过使用upsert和增量拉取等原语,Hudi将流式处理带到了类似批处理的大数据中。 公司的各个团队都依靠快速、准确的数据分析来提供高质量的用户体验,为满足这些要求,我们当前的解决方案无法扩展进行数据湖上的增量处理。 Uber的Apache Hudi团队开发了一种数据压缩策略,用于读时合并表,以便频繁将最近的分区转化为列式存储,从而减少了查询端的计算成本 有了Hudi,Uber每天向超过150PB数据湖中插入超过5,000 亿条记录,每天使用30,000多个core,超过10,000多个表和数千个数据管道,Hudi每周在我们的各种服务中提供超过100万个查询。 Apache Hudi场景包括数据分析和基础架构运行状况监视 Hudi通过对数据集强制schema,帮助用户构建更强大、更新鲜的数据湖,从而提供高质量的见解。

    1.4K20发布于 2021-04-13
  • 来自专栏腾讯云数据库(TencentDB)

    亿级客户和PB级数据规模的金融级数据库实战历程

    深圳5个同城IDC,通过多条专线两两互联,保证极高的网络质量和带宽,同时任何两个IDC之间的距离控制在10~50公里,以保证机房间的网络ping延迟控制在2ms左右。 首先,在基础设施层面,我们会保证同城的三个IDC之间的距离控制在10~50公里左右,控制网络延迟在2ms左右;同时在IDC之间建设多条专线,保证网络传输的质量和稳定性;其次,TDSQL针对这种跨IDC强同步的场景 通过基准测试表明,跨IDC强同步对联机OLTP的性能影响仅在10%左右。 当前微众银行的TDSQL SET个数已达350+(生产+容灾),数据库实例个数已达到1700+,整体数据规模已达到PB级,承载了微众银行数百个核心系统。 在以往的业务高峰中,最高达到日3.6亿+的金融交易量,最高的TPS也达到了10万+,如下图所示。 ?

    2.6K20发布于 2019-08-17
  • 来自专栏upuptop的专栏

    PB级数据实现秒级查询ES的安装

    什么是ES?ElasticSearch是一个基于Lucene的搜索服务器。它提供了一个分布式多用户能力的全文搜索引擎,基于RESTful web接口。Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业级搜索引擎。ElasticSearch用于云计算中,能够达到实时搜索,稳定,可靠,快速,安装使用方便。 本教程使用软件为6.4.3版本 下载 ElasticSearch: https://www.elastic.co/cn/downloads/elas

    77520发布于 2019-09-18
  • 来自专栏Spark学习技巧

    PB级数据实时查询,滴滴Elasticsearch多集群架构实践

    滴滴 Elasticsearch 简介 滴滴 2016 年初开始构建 Elasticsearch 平台,如今已经发展到超过 3500+Elasticsearch 实例,超过 5PB 的数据存储,峰值写入 Elasticsearch 平台规模的快速发展,Elasticsearch 集群越来越大,最大的时候,是由几百台物理机组成集群,当时集群共 3000+ 的索引,超过了 50000 个 Shard,集群总容量达到了 PB

    1.3K30发布于 2019-06-20
  • 来自专栏数据科学和人工智能

    100PB级数据分钟级延迟:Uber大数据平台(下)

    阅读本文前请先阅读上一篇文章:100+PB数据分钟级延迟:Uber大数据平台介绍(上)。 我们的计算集群中有超过100PB的数据和100000个vcores。每天支持100,000个Presto查询, 10,000个Spark作业,以及 20,000个Hive查询。 Spark上的提取作业每10-15分钟运行一次,Hadoop中原始数据延迟约为30分钟(考虑到1-2个提取作业失败或者重启)。 我们的大数据平台增量地更新Hadoop表,能够快速地访问源数据(数据延迟为10-15分钟)。

    1.6K20编辑于 2022-03-30
  • 【重磅发布】PB级数据秒级“拿捏”,数仓建模平台直开挂!

    通过Kylin的预计算技术,实现PB级数据的亚秒级查询响应,支持高并发多维分析场景。 AllData商业版将其集成至数据服务层,支持对PB级数据集的亚秒级响应。 混合存储引擎  Kylin采用列式存储与预计算结合的混合架构,兼顾查询性能与存储效率。 在电商大促期间,系统可支撑10万+并发用户对商品推荐模型的实时调用,QPS较单节点部署提升20倍。 1、数仓建模平台首页-智能分析   可自动挖掘数据价值,提供可视化洞察与精准决策支持。 10、批处理   AllData数仓建模平台依托Kylin,支持大规模批处理,可高效处理海量数据,实现批量分析与计算任务。 21、用户组-新建用户组   22、仪表盘   提供可视化图表,支持实时监控与交互式数据分析

    34921编辑于 2025-10-13
  • 来自专栏腾讯云开发者社区推荐

    PB级数据实时分析,ClickHouse到底有多彪悍?

    视频内容 一、 QQ音乐PB级数据实时分析带来的挑战 腾讯公司内部有很多业务使用 ClickHouse,比较典型的就是QQ音乐。 数据分析需求来源于产品、运营、市场等多个方面,基于传统的数仓分析门槛高,产品运营市场人员无法进行自主分析,需要把任务提交给数据开发人员做排期。 所以QQ音乐最终选择了ClickHouse集群,集群的现状是近万核的规模、PB 级的存储,十万亿级别的记录量,每天过千亿级的数据入库,包括实时流水、中间表的计算等等。 在传统的数据分析中,会经常遇到广告投放和用户画像的场景,在这些场景中,我们通常要根据一定条件找出用户的标签或者更新一些投放标签。 磁盘通常普通的 HDD 磁盘都可以,RAID 方面 RAID-5、RAID-10 或者 RAID-50 都可以。如果查询数据量大、延迟要求比较低的话,使用 SSD/NVME 这些高速设备是最好的。

    8.7K265228发布于 2020-10-21
  • 来自专栏萝卜要加油

    Uber 如何扩展数据复制能力以实现每天 PB 级数据迁移

    然而,随着 Uber 数据湖规模超过 350 PB,Distcp 的局限性逐渐显现。 HiveSync 的扩展性问题:临界点 到 2022 年第三季度,HiveSync 面临重大的扩展性挑战,因为每日数据复制量在仅一个季度内从 250 TB 激增至 1 PB。 图 10:拷贝清单任务 V2 工作流。 在图 10 中,列出函数使用多线程通过 NameNode 调用从源集群检索文件。每个线程负责为一个文件创建块,允许多个文件的并行处理。 图 13:使用 10 个线程后,平均拼接延迟降低了 97.29%。 截至目前,我们已成功将超过 306 PB 的数据迁移到云端。 图 17:通过 HiveSync 服务从本地迁移到云端的数据量。

    11210编辑于 2026-02-04
  • 来自专栏【腾讯云开发者】

    PB 级数据秒级分析:腾讯云原生湖仓DLC 架构揭秘

    LC 实现 PB 级数据秒级分析 回到最开始的问题“高性能”,PB 级数据秒级分析该怎么去做,从三个大维度展开。 在一些情况下,访问 Cos 的性能有 3—10 倍的提升。 性能方面,从来自 Presto 社区的数据看,Raptorx 有接近 10X 的提升。 具体分两步:第一步数据要进行 Cluster,类似的数聚在一起,结合引擎谓词下推,性能达到10X 以上的提升。 但是在 PB 级数据秒级分析的能力下,这些几乎都是不必要的。 层层建模的问题:第一是模式是固定的,不够敏捷。

    1.6K20编辑于 2023-01-04
  • 来自专栏云计算D1net

    PB级数据传输到云端的四个步骤

    如今,各种组织正在越来越多地使用公共云基础设施,但是人们发现将数百TB或PB数据向云端的迁移比想像得更复杂,更具破坏性,并且不具备灵活性。 存储行业专家阐述如何将PB级规模的数据传输到云环境的四个步骤。 (1)将数据漂移和转移到云原生存储 根据定义,还没有在云端的数据存储在具有特定数据访问协议的孤岛中。将这样的数据转移到公共云上非常复杂。 (2)自动化操作 具有内置自动化功能的数据管理软件基于IT设置和控制的策略,即使是单个管理员也可以在全球组织中管理多PB级混合云基础架构。 虽然对象是其默认设置,但却有足够的差异,采用专有技术将一个运营商,甚至PB级数据的一部分从一个提供商转移到另一个供应商可能是可以忍受的。 而治理,组织,分析与PB级数据相关的元数据在几年前是不可想象的。

    1.4K70发布于 2018-03-28
  • 来自专栏深度学习与python

    Adobe 将 PB 级数据迁移到 Iceberg 的实践与经验教训

    在这篇博文中,我们将分享 Adobe 将超过 1PB 的数据集迁移到 Adobe 体验平台数据湖(Datalake)上的 Iceberg 的故事,具体介绍我们面临的挑战以及从中吸取的经验教训。 原因如下: 10得到的教训 使用影子迁移策略将数据集迁移到 Iceberg 肯定有其挑战。以下是我们遇到的一些陷阱。 流量隔离和可扩展性 迁移服务的设计重用了现有的摄取架构来执行其业务逻辑。

    1.1K20编辑于 2023-04-01
  • 来自专栏腾讯云中间件的专栏

    揭秘Kafka的硬盘设计方案,快速完成PB级数据扩容需求!

    RAID10方案 使用RAID方案的原因就是为了解决单硬盘IO瓶颈的问题。经过以上方案比对,我们以RAID10为例,展开说明RAID做了什么,以及应该选择哪种RAID方案。先看下图: ? RAID10硬盘方案构建集群示意图 上图中单机用四块盘组成RAID10,即先用两块盘组成一块RAID1的虚拟盘,再用两块虚拟盘构建成一块虚拟的RAID0盘,并挂载到/data目录下。 理论上来看,假设单盘吞吐量是100MB,那四块盘组成的RAID10阵列的吞吐就是200MB,且每份数据在底层存储,是双副本的。 如果是RAID10,坏了一块硬盘,此时系统还能正常运行。 而在业务场景复杂、规模大的物理机集群,RAID0和RAID10都是可以考虑的方案。如果是部署在云上CVM主机的集群,LVM方案是一个较好的选项。

    1.5K10发布于 2021-03-24
  • 来自专栏学谦数据运营

    Copilot in Excel with Python高级数据分析

    ~ Copilot in Excel with Python Advanced Analysis Excel中的Python高级数据分析终于可用了。 Python进行深度高级分析: copilot会直接根据数据调用Python创建代码并直接生成图像: 结果展示: 当我用中文要求它画出柱状图时,它明确表示,如果在copilot中使用Python功能进行高级数据分析

    32810编辑于 2024-09-30
  • 来自专栏一臻数据

    MiniMax基于 Doris 的PB级数据保卫战

    今天我们要聊的故事主角,是国内大模型独角兽 MiniMax,且看它是如何基于 Apache Doris 秒级查询PB级数据。 MiniMax为什么选了Doris? 先把时间拨回 MiniMax 早期。 MiniMax 意识到,Loki 已经不再是那个小甜甜了,他们需要一个能扛得住 PB 级数据、查得快、还得便宜的牛夫人。 摆在 MiniMax 面前的选项其实不多。 同样的 PB 级数据,存在 Doris 里占用的磁盘空间只有原来的几分之一。 再加上冷热数据分层技术,把 7 天前的老日志自动扔到廉价的对象存储(S3)上,这成本一下就打下来了 70% 以上。 结语 现在的 MiniMax 内部,PB 级日志都跑在 Apache Doris 上。 过去查询转圈圈的日子结束了,整体可用性达到了 99.9%。 Apache Doris 从一个单纯的 OLAP 数据库,进化到如今能吞下 PB 级日志的统一存储平台,正是这种技术融合的缩影。

    23910编辑于 2025-12-24
  • TCHouse-X的BSP执行框架:解锁PB级数据智能分析的新钥匙

    其核心思想是将计算过程划分为一系列超步(supersteps),每个超步内并行执行,超步之间进行全局同步,从而有效避免单节点内存不足的问题,确保PB级数据查询的稳定与高效。 TCHouse-X的BSP框架结合向量化引擎,能够对PB级湖数据执行高效扫描与分析,某游戏公司将20PB行为日志存于COS,通过TCHouse-X直接查询,每月节省Spark集群费用42万元。 极致性能,成本更优:基于MPP+BSP混合执行框架、向量化执行引擎与自适应优化器,TCHouse-X实现了PB级数据的高性能处理。 官方测试显示,其TPC-DS 10TB场景耗时仅为同类开源方案的1/3,离线批处理综合性价比提升超10倍。 它不仅解决了PB级数据处理的性能瓶颈,更通过智能弹性与统一平台,大幅降低了企业的运维成本与技术复杂度。

    14710编辑于 2026-04-08
  • 来自专栏PPV课数据科学社区

    如何利用 Excel 进行高级数据分析

    高级的数据分析会涉及回归分析、方差分析和T检验等方法,不要看这些内容貌似跟日常工作毫无关系,其实往高处走,MBA的课程也是包含这些内容的,所以早学晚学都得学,干脆就提前了解吧,请查看以下内容。 在使用之前,首先得安装Excel的数据分析功能,默认情况下,Excel是没有安装这个扩展功能的,安装如下所示: 1)鼠标悬浮在Office按钮上,然后点击【Excel选项】: ? 4)安装完后,就可以【数据】板块看到【数据分析】功能,如下所示: ? 安装完后,首先来了解一下回归分析的内容。 回归分析 在详细进行回归分析之前,首先要理解什么叫回归? 使用Excel的数据分析功能 1)点击【数据分析】,在弹出的选择框中选择【回归】,然后点击【确定】: ? 1、回复“数据分析师”查看数据分析师系列文章 2、回复“案例”查看大数据案例系列文章 3、回复“征信”查看相关征信的系列文章 4、回复“可视化”查看可视化专题系列文章 5、回复“SPPS”查看SPSS系列文章

    3.2K41发布于 2018-04-23
领券