首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏大数据与微服务架构

    ElasticSearch亿数据检索深度优化

    四、使用API获取集群节点信息(http,thread_pool,transport,jvm,os,process.....)

    62320编辑于 2022-12-05
  • 来自专栏大数据成神之路

    ElasticSearch 亿数据检索深度优化

    按条件的数据查询秒返回。 - 优化案例 - 优化案例 在我们的案例中,查询字段都是固定的,不提供全文检索功能,这也是几十亿数据能秒返回的一个大前提: ES仅提供字段的检索,仅存储HBase的Rowkey不存储实际数据

    95650发布于 2021-09-22
  • 来自专栏对线JAVA面试

    ElasticSearch 亿数据检索深度优化

    按条件的数据查询秒返回。 - 优化案例 - 优化案例 在我们的案例中,查询字段都是固定的,不提供全文检索功能,这也是几十亿数据能秒返回的一个大前提: ES仅提供字段的检索,仅存储HBase的Rowkey不存储实际数据

    82310编辑于 2022-10-08
  • 来自专栏一个会写诗的程序员的博客

    ElasticSearch 亿数据检索深度性能优化

    按条件的数据查询秒返回。 四、优化案例 在我们的案例中,查询字段都是固定的,不提供全文检索功能,这也是几十亿数据能秒返回的一个大前提: 1、ES仅提供字段的检索,仅存储HBase的Rowkey不存储实际数据。

    2.2K20编辑于 2021-12-16
  • 来自专栏业余草

    Elasticsearch 亿数据检索案例与原理

    按条件的数据查询秒返回。 四、优化案例 在我们的案例中,查询字段都是固定的,不提供全文检索功能,这也是几十亿数据能秒返回的一个大前提: ES仅提供字段的检索,仅存储HBase的Rowkey不存储实际数据。

    1.6K10发布于 2019-11-04
  • 来自专栏腾讯技术工程官方号的专栏

    腾讯 PB 大数据计算如何做到秒

    Presto 在腾讯天穹 SuperSQL 大数据生态中,定位为实现秒大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。 日均处理数据量 PB ,P90 查询耗时为 50s,全面提升各业务数据实时分析性能,有效助力业务增长。 Connector 功能增强 腾讯天穹实时数仓-数据湖分析系统 DLA 使用了 Iceberg 作为表的数据组织格式,用户数据入湖后,可以通过 Presto Iceberg Connector 获得秒的查询体验 4.4 Optimized Repartitioning 天穹 Presto 每天的业务查询 Exchange 的数据量达到了上百 PB 级别,为了提升 Repartitioning 阶段的性能,我们在生产环境中启用了社区的

    2.2K21编辑于 2022-01-21
  • 来自专栏萝卜要加油

    Netflix 如何使用 ClickHouse 处理PB 日志系统

    工程师Daniel Muino的这句话,背后是一组震撼的数据: 单日日志 ingestion 量达 5PB,平均每秒处理 1060万条事件(峰值1250万条); 每条日志约5KB,支撑4万+微服务,服务全球 要让这么大规模的日志“秒可查”,光靠ClickHouse还不够。Netflix团队靠3个关键优化,才实现了“日志生成20秒内可搜、部分场景最低2秒延迟”的体验(远优于5分钟SLA)。 Sidecar → Ingestion集群; 临时缓冲后 数据写入Amazon S3,同时触发Amazon Kinesis消息; 核心存储分层 热数据层(ClickHouse) 存储近期日志,主打“快”——支撑秒查询 对Netflix而言,这套系统不仅是“日志存储”——更是支撑3亿用户流畅观影的“故障排查生命线”:从“等查询”到“秒响应”,背后是每一个优化细节的积累。

    34510编辑于 2025-11-14
  • 来自专栏Java研发军团

    Elasticsearch 亿数据检索性能优化案例实战!

    按条件的数据查询秒返回。 四、优化案例 在我们的案例中,查询字段都是固定的,不提供全文检索功能,这也是几十亿数据能秒返回的一个大前提: 1、ES仅提供字段的检索,仅存储HBase的Rowkey不存储实际数据。

    1.3K20发布于 2019-10-29
  • 来自专栏芋道源码1024

    Elasticsearch 亿数据检索性能优化案例实战

    按条件的数据查询秒返回。 四、优化案例 在我们的案例中,查询字段都是固定的,不提供全文检索功能,这也是几十亿数据能秒返回的一个大前提: ES仅提供字段的检索,仅存储HBase的Rowkey不存储实际数据。

    1.1K21编辑于 2022-09-23
  • 来自专栏憧憬博客分享

    PB数据毫秒搜索之Elasticsearch(二)基础了解

    语法查询 { "query":{ "query_string":{ "query":"三 OR JAVA", 可以设置正常查询条件 OR AND 还可以使用()设置优先

    1K10发布于 2020-07-20
  • 来自专栏ApacheHudi

    揭秘Robinhood扩展和管理PB规模Lakehouse架构

    Varadarajan 和技术主管 Pritam Dey 描述了他们公司的数据Lakehouse的实现,Robinhood 的数据团队如何基于 Apache Hudi 和相关 OSS 服务来处理数 PB 规模的指数增长。 实施 Robinhood 数据Lakehouse架构 Robinhood 数据 Lakehouse 生态系统支持超过一万个数据源,处理数 PB 数据集,并处理数据新鲜度模式(从近实时流到静态)、数据关键性 需要能够根据需要删除整个 PB 级数据湖库中单个用户的所有 PII。这必须快速、高效地完成,并且不能影响其他用户。 具体来说: • 基于 CDC 的分层管道是在 Apache Hudi 之上使用 Debezium 构建的,可有效扩展以支持 10,000 多个数据源,并在指数增长的情况下处理多 PB 数据流。

    72810编辑于 2024-04-26
  • 来自专栏腾讯大数据的专栏

    天穹SuperSQL如何把腾讯 PB 大数据计算做到秒

    Presto在腾讯天穹SuperSQL大数据生态中,定位为实现秒大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。 日均处理数据量PB,P90查询耗时为50s,全面提升各业务数据实时分析性能,有效助力业务增长。 Iceberg Connector功能增强 腾讯天穹实时数仓-数据湖分析系统DLA使用了Iceberg作为表的数据组织格式,用户数据入湖后,可以通过Presto Iceberg Connector获得秒的查询体验 4.4  Optimized Repartitioning  天穹Presto每天的业务查询Exchange的数据量达到了上百PB级别,为了提升Repartitioning阶段的性能,我们在生产环境中启用了社区的

    2.1K51编辑于 2022-01-23
  • 来自专栏upuptop的专栏

    PB级数据实现秒查询ES的安装

    Elasticsearch是用Java语言开发的,并作为Apache许可条款下的开放源码发布,是一种流行的企业搜索引擎。

    82220发布于 2019-09-18
  • 来自专栏腾讯大讲堂的专栏

    PB 大规模 Elasticsearch 集群运维与调优实践

    ,并且提供有跨机房容灾的集群从而实现高可用…… XX 公司运维老大:你说的这些别的厂商也有,我就问一个问题,我们现在要存储一年的游戏日志,不能删除数据,每天就按 10TB 的数据量算,一年也得有个 3PB v 发现大量的"shard-started"任务在执行中,任务优先是"URGENT", 以及大量的排在后面的"put mapping"的任务,任务优先是"HIGH";"URGENT"优先比"HIGH "优先要高,因为大量的分片从旧的节点迁移到新的节点上,造成了索引创建的任务被阻塞,从而导致写入数据失败。 但是因为"put settings"任务的优先也是"HIGH", 低于"shard-started"任务的优先,所以更新该参数的操作还是会被阻塞,ES 报错执行任务超时。 在上述的场景中,我们花费大量的精力去解决问题和优化使用方式,保证 ES 集群能够稳定运行,支持 PB 级别的存储。

    83510发布于 2020-09-01
  • 来自专栏FreeBuf

    移动APP上的广告劫持每天造成PB的数据浪费

    然而这一行为造成了严重的资源浪费,据估计移动平台广告劫持导致每天有PB(1PB=100万GB)的数据被浪费。

    842100发布于 2018-02-06
  • 来自专栏CSDN技术头条

    雅虎PB云对象存储COS实践:选择Ceph,放弃Swift

    本文介绍了雅虎PB云对象存储COS解决方案的实践,解释了选择Ceph放弃Swift的原因,部署的架构及其实现,耐用性和延迟方面的优化以及未来的研发方向等。 在与Flicker的合作下雅虎已经对该方案进行了多PB的初始部署。并且计划在2015年把COS作为多租户的托管服务,继续通过支持Flicker、雅虎邮件和Tumblr来把COS的部数量提升十倍。 未来COS将存储数百PB的数据! COS用的是Ceph COS的部署中应用到了Ceph存储技术。 经过多次软件的调整和试运行之后,现在每个Ceph集群的部署大约能达到3PB的原始数据,并且无论在进行通常操作还是在做故障恢复的时候都能提供可预测的延迟。 规模上:我们已经初始部署了一个多PB解决方案。在2015年,我们计划将其增长10倍以上,把它用到邮件,视频,Tumblr等,实现像在Flickr那样的增长。

    2.2K50发布于 2018-02-09
  • 来自专栏IT技术精选文摘

    PB海量数据服务平台架构设计实践

    基于PB海量数据实现数据服务平台,需要从各个不同的角度去权衡,主要包括实践背景、技术选型、架构设计,我们基于这三个方面进行了架构实践,下面分别从这三个方面进行详细分析讨论: 实践背景 该数据服务平台架构设计之初 由于时间范围条件跨度需要支持几年(如1~3年),计算依赖的数据量级在TB甚至PB级别,所以一定要通过预计算的方式压缩数据,并能提供支持快速计算的方式。 技术选型 技术选型,主要从如下几个方面进行考虑: 数据存储 原始数据存储 数据量级达到PB,所以,作为整个数据服务平台的最初输入数据,我们称为数据服务平台的原始数据,后续简称原始数据,这些原始数据是直接存储在 分布式关系数据存储 对于PB的数据,想要在数据服务平台中快速为用户提供数据服务,根据业务特点,存储在适合快速加载、快速计算的分布式数据存储系统中。 这里面,稍有点复杂的是,作业是一调度,任务是二调度,但是要保证属于同一个作业的任务能够按照先后顺序被调度运行。

    2.7K60发布于 2018-01-30
  • 来自专栏腾讯云Elasticsearch Service

    PB大规模Elasticsearch集群运维与调优实践

    XX公司运维老大:你说的这些别的厂商也有,我就问一个问题,我们现在要存储一年的游戏日志,不能删除数据,每天就按10TB的数据量算,一年也得有个3PB多的数据,这么大的数量,都放在SSD云盘上,我们的成本太高了 v; 发现大量的"shard-started"任务在执行中,任务优先是"URGENT", 以及大量的排在后面的"put mapping"的任务,任务优先是"HIGH";"URGENT"优先比"HIGH "优先要高,因为大量的分片从旧的节点迁移到新的节点上,造成了索引创建的任务被阻塞,从而导致写入数据失败。 但是因为"put settings"任务的优先也是"HIGH", 低于"shard-started"任务的优先,所以更新该参数的操作还是会被阻塞,ES报错执行任务超时。 在上述的场景4-7中,我们花费大量的精力去解决问题和优化使用方式,保证ES集群能够稳定运行,支持PB级别的存储。

    2.3K95发布于 2020-07-24
  • 来自专栏腾讯云Elasticsearch Service

    PB大规模Elasticsearch集群运维与调优实践

    XX公司运维老大:你说的这些别的厂商也有,我就问一个问题,我们现在要存储一年的游戏日志,不能删除数据,每天就按10TB的数据量算,一年也得有个3PB多的数据,这么大的数量,都放在SSD云盘上,我们的成本太高了 v; 发现大量的"shard-started"任务在执行中,任务优先是"URGENT", 以及大量的排在后面的"put mapping"的任务,任务优先是"HIGH";"URGENT"优先比"HIGH "优先要高,因为大量的分片从旧的节点迁移到新的节点上,造成了索引创建的任务被阻塞,从而导致写入数据失败。 但是因为"put settings"任务的优先也是"HIGH", 低于"shard-started"任务的优先,所以更新该参数的操作还是会被阻塞,ES报错执行任务超时。 在上述的场景4-7中,我们花费大量的精力去解决问题和优化使用方式,保证ES集群能够稳定运行,支持PB级别的存储。

    2K30发布于 2021-01-07
  • 来自专栏腾讯云开发者社区推荐

    QQ音乐PBClickHouse实时数据平台架构演进之路

    优质服务的背后,是每天万亿新增音乐内容和行为数据,PB数据量级的数据计算服务。 海量的数据意味着更高标准的数据分析业务,对于离线分析的时效、实时与近实时的即席实时交互分析,提出了更高的要求。 二、大数据分析的挑战 早些年在传统离线数仓阶段,QQ音乐使用Hive作为大数据分析的主要工具,对TB至PB的数据进行分析,但存在着以下的可提升点: 1.jpg 1. 集群日均新增万亿数据,规模达到上万核CPU,PB级数据量。整体实现秒的实时数据分析、提取、下钻、监控数据基础服务,大大提高了大数据分析与处理的工作效率。 ClickHouse架构系统技术攻克点 面对上万核集群规模、PB的数据量,经过QQ音乐大数据团队和腾讯云EMR双方技术团队无数次技术架构升级优化,性能优化,逐步形成高可用、高性能、高安全的OLAP计算分析平台 基于Superset的自助数据分析可视化平台 Apache Superset(孵化)是一个现代的、企业的商业智能Web应用程序,为业务提供处理PB级数据的高性能的OLAP在线数据分析服务,提供丰富的数据可视化集

    14.7K6717发布于 2020-06-03
领券