在2024腾讯全球数字生态大会开发者嘉年华线上直播中,观看了腾讯云流计算oceanus构建流式湖仓的介绍,随笔记录下。
近年来随着数字化的加速发展,企业对数据的实时处理和分析需求日益迫切。实时数据已经成为驱动业务创新,提升竞争力的核心要素。然而传统的批处理方式时效性差、数据孤岛、难以扩展等问题,无法满足现代企业对实时洞察的迫切需求。
流计算 Oceanus 是大数据产品生态体系的实时化分析利器,是基于 Apache Flink 构建的企业级实时大数据分析平台,具备一站开发、无缝连接、亚秒延时、低廉成本、安全稳定等特点。
流计算 Oceanus 以实现企业数据价值最大化为目标,加速企业实时化数字化的建设进程。能够帮助企业实时捕捉、处理和分析海量数据。从而实现业务决策的快速响应,提升运营效率,发掘新的增长机会。
传统上,用户会选用Lambda架构来搭建数据分析的链路。Lambda架构是比较稳定的流批数据处理的架构。让离线和实时的数据走单独的链路处理,离线链路的数据一般存储在Hive等离线处理的引擎中,并使用Spark进行多层数据的转换。实时链路的数据会单独处理,一般使用Flink+Kafka的实时分层链路。最终数据会写入在线数据库和数仓中。这种架构可以实现数据库秒级的延迟,但也存在一些问题。这种链路不够灵活,kafka无法保存较长时间的数据,没办法实现数据的分析和挖掘。这种链路成本比较高,upsert-kafka依赖于本地的状态存储。Lambda架构模式的实时数据和离线数据都是走单独的链路,造成数据存储的加倍。实时计算和离线存储的逻辑也需要单独开发。

Oceanus 将实时和离线的链路进行统一。统一了数据存储,满足了以下两个要求:一是离线对数仓的数据读取,OLAP需求的分析,二是对写入的数据可以产出完整Flink兼容的changelog,可以接入到Flink作业中进行进一步的流式处理。腾讯推出了Streaming lceberg,它是基于lceberg生态的流式湖仓解决方案。
亮点:
应用场景:
以下是一个电商行业实时订单交易数据分析场景。

企业面临的痛点:
Oceanus根据以上痛点,推出了新型弹性降本方案
在2024腾讯全球数字生态大会开发者嘉年华活动中,学习到了很多黑科技,丰富了自己的知识,激发了对技术的探索和思考,获得了很多宝贵的经验和见解。非常感谢腾讯的嘉年华活动,希望越办越好,秉持开放兼容的精神,相互学习探讨,共同合作。加油!
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。