首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 传统大数据 Hadoop 和原生 Databend 对比

    本文将对比传统大数据架构与新一代原生 Databend,通过对比它们在实时与离线架构中的区别,感受 Databend 的优势。 Databend 基本性能测试 某省级大数据交易集团从传统大数据方案到 Databend 转型 大数据交易所原来使用传统大数据 Hadoop( HDFS, Hive, Hbase ) , Spark 从传统大数据到 Databend 后的收益 基于 Databend 构建的建的方案,实现了 Databend 统一 SQL 入口,实现了: 实现一份数据多业务集群同时访问,隔离计算的同时减少数据搬家 利用 Databend 同一业务多集群架构实现平台直接对外服务,从根本上解决数据搬家 借助于 Databend 原生及存储分离的理念实现对资源的更加有效的管控,精细扩容及管理。 基于 Databend 架构实现一体化,大大简化数据接入及使用,原来的周级任务排布到现在的基本 30 分钟左右可以实现一个业务的上线及对外服务。

    25610编辑于 2025-11-14
  • 来自专栏【腾讯云开发者】

    原生数据101

    导语 | 原生数据致力于扩大公有市场总量:一方面以低成本优势推动客户上,另一方面上客户得以低成本撬动更多结构化和非结构化数据的价值,是一场厂商的自我革命,本文将为大家洞悉原生数据的神秘面纱 ,并且首次推出腾讯原生数据产品。 二、原生数据架构三大原则 原生数据架构的核心理念是低成本,并且追求不俗的性能。 yarn 的整体设计更适合 local 数据平台的固定集群规模,如何利用 k8s 来达到高效的资源调度策略是原生数据的另一个核心难点。 3. 展望数据解决方案 未来,腾讯数据解决方案建设将以对象存储 COS 为数据存储,以容器服务为原生资源调度,以数据构建 DLF 为统一元数据纽带,构建腾讯上的数建模、数据分析、机器学习的数据解决方案

    84610发布于 2021-03-11
  • 来自专栏【腾讯云开发者】

    PB 级数据秒级分析:腾讯原生DLC 架构揭秘

    导读|过去几年,数据能力已经在腾讯内部包括微信视频号、小程序等多个业务大规模落地,数据规模达到 PB至 EB 级别。在此基础上,腾讯自研业务也启动了原生能力建设。原生架构最大的挑战什么? 腾讯原生 DLC 从哪些方面着手解决问题?接下来由腾讯数据专家工程师于华丽带来相关分享。 原生的诞生背景、价值、挑战 当前这个阶段,相信大家对于数据数据一系列的名词已经不算陌生了,我用最直白、最狭义方式去解释“”的话,就是数据跟数存储架构统一。 这个存储系统看起来这么好,有没有可能把数一起解决,结构化数据是不是存在这里?伴随着这个需求的升级,现代架构的基础也随之产生。 原生又是什么呢?最狭义的理解就是容器计算 + K8s。 背景下的建模新思路 接下来一起看下,在原生架构下,建模有有哪些新思路: 第一个,扁平湖架构,核心是不再维护复杂的数分层,而是把明细层的数据能够直接高性能分析;第二个是离线增量;第三个,现在业界比较时髦的新方向实时增量

    1.6K20编辑于 2023-01-04
  • 来自专栏超级架构师

    数据数据和仓库:范式简介

    是时候将数据分析迁移到云端了——您选择数据仓库还是数据解决方案?了解这两种方法的优缺点。 数据分析平台正在转向环境,例如亚马逊网络服务、微软 Azure 和谷歌环境提供了多种好处,例如可扩展性、可用性和可靠性。此外,提供商有大量的原生组件可供构建。还有多种第三方工具可供选择,其中一些是专门为设计的,可通过市场获得。 博客系列 数据和仓库第 1 部分:范式简介 数据和仓库第 2 部分:Databricks 和雪花 数据和仓库第 3 部分:Azure Synapse 观点 两种范式:数据数据仓库 基于一些主要组件的选择 ,分析解决方案可以分为两类:数据数据仓库。 原则上,您可以纯粹在数据或基于数据仓库的解决方案上构建数据分析平台。 我见过大量基于数据工具的功能齐全的平台。在这些情况下,可以使用特定于用例的数据数据集市来提供信息,而根本不需要数据仓库。

    1.2K10编辑于 2022-03-08
  • StarRocks x Iceberg:原生分析技术揭秘与最佳实践

    导读:本文将深入探讨基于 StarRocks 和 Iceberg 构建的原生分析技术,详细解析两者结合如何实现高效的查询性能优化。 作者:杨关锁,北京镜舟科技研发工程师一、StarRocks Lakehouse 架构介绍1.1 什么是 LakehouseLakehouse 一体架构是一种融合数据数据仓库优势的新型架构,既具备数据开放统一的存储能力 上层整合 Spark、Flink、StarRocks 等计算引擎,可利用 Catalog 服务便捷地访问数据,实现“存储统一、计算灵活、治理可控”的一体架构。 从数据新鲜度来看,Lakehouse 在数据之后就可以查询,消除了同步延迟,可以保证数据的时效性。从数据存储成本来看,Lakehouse 只存储一份数据,避免了冗余存储带来的成本。 Iceberg 单个 Manifest 文件(约 8MB)解析通常耗时 1 秒左右,对于追求极速查询的 StarRocks 来说,这样的延迟不可接受。而实际查询往往只涉及少量数据,解析收益偏低。

    73311编辑于 2025-05-30
  • 来自专栏超级架构师

    数据数据和仓库:Databricks 和 Snowflake

    在这篇文章中,我们将介绍基于数据仓库和基于数据数据解决方案之间的区别。我们通过比较多种环境中可用的两种流行技术来做到这一点:Databricks 和 Snowflake。 根据数据范式,文件格式本身是开放的,任何人都可以免费使用。 Snowflake 是一个借鉴数据范式的可扩展数据仓库 Snowflake 是专为环境开发的可扩展数据仓库解决方案。 Snowflake 以专有文件格式将数据存储在存储中。 微信小号 【cea_csa_cto】50000人社区,讨论:企业架构,计算,大数据数据科学,物联网,人工智能,安全,全栈开发,DevOps,数字化. QQ群 【792862318】深度交流企业架构,业务架构,应用架构,数据架构,技术架构,集成架构,安全架构。以及大数据计算,物联网,人工智能等各种新兴技术。

    3.3K10编辑于 2022-03-08
  • 来自专栏腾讯云大数据

    QCon大会实录:PB级数据秒级分析-腾讯原生DLC架构揭秘

    导语 ‍‍‍‍文章整理了全球软件开发大会QCon《PB级数据秒级分析-腾讯原生DLC架构揭秘》。 原生架构最大的挑战什么?腾讯原生DLC从哪些方面着手解决问题? 非常荣幸代表腾讯原生DLC团队来到qcon,分享DLC做到pb级数据秒级分析的背后的架构逻辑。 第一部分:原生的诞生背景、价值、挑战 首先介绍到底是什么东西? 这个存储系统看起来这么好,有没有可能把数一起解决,结构化数据是不是存在这里,这个需求的升级,就是现代架构的基础了。 原生是什么东西呢?最狭义的理解,就是容器化的计算,把k8s加上了。

    1.1K20编辑于 2022-08-26
  • 原生一体演进:大模型多模态数据底座的重构路径

    专家背书: 徐潇 | 腾讯数据技术专家,Apache Gravitino PMC 一、 破除AI场景数据读写与管理瓶颈 在AI与大模型时代,企业传统数据架构在对接机器学习与模型训练时面临严重的业务瓶颈与计算损耗 二、 构建桥接数据与AI的统一向量 针对上述架构冲突,通过扩展Lakehouse(一体)架构,将向量数据作为连接Data与AI的实体桥梁,构建统一向量(Vector Lake)。 引入Lance原生多模态格式: 原生支持文本、图像、音视频等多模态数据,内置多种索引格式以支持低延时随机访问,并专门针对AI数据集优化元数据布局,从根本上减少元数据开销。 五、 引领架构向大模型底座演进 腾讯通过深度参与和主导开源社区(如 Apache Gravitino PMC 席位),确立了在原生一体向大模型数据底座演进过程中的技术确定性。 面对AI时代多模态数据的多样性、PB级规模与高价值提取需求,腾讯主导的统一向量架构,成功将数据与AI的连接路径标准化。

    7110编辑于 2026-04-27
  • 来自专栏超级架构师

    数据数据和仓库:Azure Synapse 视角

    是时候将数据分析迁移到云端了。我们将讨论 Azure Synapse 在数据数据仓库范式规模上的定位。 具体来说,我们关注如何在其中看到数据仓库和数据范式的区别。 为了熟悉这个主题,我建议你先阅读本系列的前几篇文章。 数据和仓库第 1 部分:范式简介 数据和仓库第 2 部分:Databricks 和Showflake 数据和仓库第 3 部分:Azure Synapse 观点 我们现在考虑一个更新颖的解决方案,该解决方案与该主题的角度略有不同 这样一来,我们就有了多个数据产品,一个品牌和一个界面,涵盖了数据分析平台的所有阶段。此外,Synapse 环境为数据仓库构建和数据开发提供了工具。 除 Synapse 专用 SQL 池数据仓库外,所有处理组件均按数据范例的典型使用量付费。所有工具甚至都有自动关机功能。

    1.6K20编辑于 2022-03-08
  • 来自专栏JAVA开发专栏

    原生数据体系

    ,通过精细化权限控制保障数据安全 基于OSS的数据存储 OSS介绍 阿里对象存储OSS(Object Storage Service)是阿里提供的海量、安全、低成本、高可靠的存储服务。 由于对象存储有海量、安全、低成本、高可靠、易集成等优势,各种IoT设备,网站数据都把各种形式的原始文件存储在对象存储上,利用对象存储增强和扩展大数据AI也成为业界 共识,Apache Hadoop社区也推出了原生的对象存储 对于上的客户来说,如何构建自己的数据,早期的技术选型也非常重要,随着数据流的不断增加,后续进行架构升级和数据迁移的成本也会增加,在上使用HDFS构建大规模存储系统,已经暴露出来不少问题,HDFS是 ,需要不断的进行调优、集群拆分来,HDFS可以支持到EB级别,但是投入很高的运维成本,来解决慢启动,心跳风暴、节点扩容、节点迁移、数据平衡等问题 原生的大数据存储方案,基于阿里OSS构件数据最合适的选择 ,因此在阿里上,JindoFS+OSS称为客户采取数据架构迁移上的最佳实践。

    96331编辑于 2022-12-15
  • 来自专栏大数据&云原生

    Iceberg+Amoro+Cloudeon体验原生数据

    图片 安装AmoroAmoro是一个开源的数据管理系统。在安装Amoro之前,需要选择要安装的服务和节点,并准备好MySQL数据库。 支持Iceberg是一个数据开源项目,用于管理大规模数据的表格式。 表,实现数据表的管理和自优化。 图片 Spark写入数据Spark也可以用于写入数据到Iceberg表。 这个环境不仅支持流式数据生成和处理还有批处理,还能借助Amoro实现数据表的自动优化性能,为大数据应用提供了可靠的基础设施。

    1.1K20编辑于 2023-09-08
  • 来自专栏深度学习与python

    腾讯安全发布原生安全数据

    9 月 20 日,腾讯安全发布全新一代原生安全数据,专注海量日志数据分析,助力企业构建一体化原生数据平台,迈向主动安全。 两年前,腾讯安全在服务客户过程中发现,客户普遍反应遇到日志存储成本攀升、查询效率低下的问题,因此腾讯安全大数据实验室基于多年的大数据分析处理能力,前后花费两年时间自主研发了一款面向原生的安全数据产品 腾讯原生安全数据是基于原生的自研数据分析平台,利用日志数据无需修改、大量字段重复、有时间戳等特性进行了几大创新: 架构领先:MPP 架构,采用 Rust 语言开发,针对日志及安全场景进行专项优化 :面向原生架构实现存算分离、读写分离、从而实现一键弹性扩容,故障秒级切换 依托上述技术创新,腾讯原生安全数据实现了极致的压缩比和数据处理效率,能将企业的安全运营存储成本降低 90%;在底层架构上面向原生设计 目前,该数据已经集成在腾讯安全 SOC+ 产品下,为企业安全运营管理提供基座。未来,腾讯安全还会对外提供独立产品,助力企业构建原生数据平台。

    1.5K21编辑于 2023-09-24
  • 来自专栏大数据学习与分享

    数据一体架构实践

    解决数据挑战的方法是lakehouse,它通过在上面添加事务存储层来解决数据的挑战。一个lakehouse,使用类似于数据仓库的数据结构和数据管理功能,但直接在数据湖上运行。 五、汽车之家一体架构实践案例分享 以下文字来源DataFunTalk,介绍了如何基于Apache Iceberg构建湖一体架构,将数据可见性提升至分钟级;从多维分析的角度来探讨引入Apache Iceberg 02 基于 Iceberg 的一体架构实践 一体的意义就是说我不需要看见数据有着打通的元数据的格式,它可以自由的流动,也可以对接上层多样化的计算生态。 ——贾扬清 1. FileCommitter 单并行度顺序提交 table.newOverwrite() Flink.last.committed.checkpoint.id 8. 总结 通过对一体、流批融合的探索,我们分别做了总结。 一体 Iceberg 支持 Hive Metastore; 总体使用上与 Hive 表类似:相同数据格式、相同的计算引擎。

    3.8K32编辑于 2022-12-12
  • 数据 vs 数据仓库:大厂为何总爱“并用”?

    数据团队常常陷入两难选择:用数据仓库做报表快,但放不进原始日志和图片;用数据存万物成本低,但查个基础指标却很慢。当95%的企业还在纠结“选还是选”,头部大厂早已走向第三条路:一体架构。 (2)数据:遵循Schema-on-Read理念,允许原始数据以结构化、半结构化、非结构化等原生格式直接存储。 2.数据治理架构设计构建有效数据需整合四大核心组件:(1)存储引擎:采用HDFS等分布式文件系统或AWS S3等对象存储,实现低成本海量存储。 四、一体架构的优势随着企业对数据实时性、多场景复用的要求提升,融合成为必然趋势。新一代Lakehouse 架构如何突破传统局限? (3)>50人的中大型团队:直接规划一体架构,选择Snowflake Data Cloud、Databricks Lakehouse等原生解决方案,降低技术栈复杂度。

    52810编辑于 2025-09-05
  • 重构原生数据架构:紫檀数据实现实时分析升级与整体TCO骤降20%

    构建以EMR与Doris为核心的原生实时计算平台 针对上述系统稳定性与运维成本痛点,腾讯殿堂级合作伙伴——湖南蓝鹰信息技术有限公司为紫檀数据量身定制了原生架构升级方案。 数据分析平台全面重构: 经过多轮技术预研与打磨,彻底废弃传统自建模式,数据分析平台全面重构为基于腾讯EMR + CDW-Doris的原生数据方案。 带宽与突发成本骤减: 采用S5机型叠加固定带宽方案后,单项每月可为客户节约6-8万元的带宽费用;机器学习容器化改造有效降低了系统突发成本。 依托殿堂级生态伙伴输出确定性技术支撑 在复杂的底层架构迁移与数选型过程中,腾讯联合湖南蓝鹰信息技术有限公司提供了覆盖全生命周期的确定性服务: 敏捷的技术专家响应: 提供7*24H专家VIP响应服务。 在数产品选型期输出专业技术意见;在实施阶段,代理商技术团队提供第一时间响应与驻场指导配置,大幅降低了客户的学习成本与业务切换风险。

    14910编辑于 2026-04-07
  • 来自专栏最新最全的大数据技术体系

    数据跟数的区别

    1.2K20编辑于 2021-12-07
  • 来自专栏大数据杂货铺

    安全数据一体的 10 个关键

    与本地数据相比,数据可提供显着的扩展性、敏捷性和成本优势,但迁移到并非没有安全考虑。 数据一体架构在设计上结合了复杂的组件生态系统,每个组件都是可以利用数据的潜在路径。 将这个生态系统迁移到云端对于那些规避风险的人来说可能会感到不知所措,但数据一体安全多年来已经发展到可以更安全、正确完成并提供比本地部署显着优势和好处的地步数据一体部署。 将此概念应用于时,您的目标是将平台功能严格限制为它们的预期功能。数据一体角色应仅限于管理和管理数据一体平台,仅此而已。云安全功能应分配给经验丰富的安全管理员。 结论:全面的数据一体安全至关重要 数据一体是一个复杂的分析环境,超越了存储,需要专业知识、规划和纪律才能有效保护。 归根结底,企业对自己的数据负有责任和义务,应该考虑如何将数据一体转变为运行在公有上的“私有数据一体”。此处提供的指南旨在将提供商基础架构的安全范围扩展到包括企业数据

    1.1K10编辑于 2022-12-02
  • 来自专栏用户5909132的专栏

    腾讯对象存储联合DataBend打通数据数据仓库

    随着数字化进程不断深入,数据呈大规模、多样性的爆发式增长。为满足更多样、更复杂的业务数据处理分析的诉求,一体应运而生。 伴随多场景的成功落地,腾讯对象存储打造基于技术的一体解决方案。 腾讯对象存储打造开放的一体解决方案,与业界优秀的Databend Cloud深度合作,打破数数据之间的壁垒,减少了数据分析中的搬迁,实现数据融合和统一数据管理,以便用户快速、高效、按需的进行数据分析 为保障腾讯对象存储联合Databend Cloud的一体解决方案的品质,Databend 数据仓库系统已通过腾讯官方认证;近日,双方共同见证Databend获得腾讯技术认证。 ,就能完成从0到用上一体方案;高效:直接对COS数据数据进行分析,省去数据搬移、转换等繁琐易错的数据管理操作,且上对象存储COS是海量的、低成的存储方案;按需,利用上构建的优势,数据分析的数据

    86720编辑于 2023-07-16
  • 来自专栏大数据动态

    腾讯原生智能数据发布会将开,首次透露腾讯数据产品全景矩阵

    数据正是在这样的背景下应运而生,而数据最佳的实践场所。国内各大厂商也聚焦数据,将计算技术与数据技术结合,进一步发挥自有的弹性扩张、灵活部署优势,让企业快速搭建并运用数据技术架构。 其中腾讯,已经构建了完善的数据技术与产品矩阵,围绕数据存储、数据分析、数据 AI,数据算力调度覆盖数据业务全场景,形成综合性云端数据解决方案,帮助企业高效构建云端数据架构。 5月13日下午,腾讯将在北京举办“原生智能数据”媒体发布会。 1565881658.jpg 会上,腾讯将首次对外展示完整数据产品矩阵以及发布数据系列新品,助力企业数据资源的高效共享。 目前,腾讯数据体系已服务众多内外部客户,算力弹性资源池达 500万核,存储数据超过100PB,日采集数据量超500TB,每日分析任务数达1500万,每日实时计算次数超过万亿,能支持上亿维度的数据训练 基于腾讯原生数据技术架构,在数据采集、数据存储、数据分析的全数据链条上提供了高可靠高可用的弹性数据能力。

    2.2K30发布于 2021-05-12
  • 腾讯云云原生一体演进:构建AI时代向量数据底座

    构建统一向量扩展Lakehouse架构 腾讯通过原生一体演进,以向量数据为桥梁连接数据与AI,方案含四大技术模块: Iceberg向量表与LSH索引 原理:通过局部敏感哈希(LSH)将相似向量映射至相同 Lance向量表与存储优化 解决问题:传统数据向量存储行组大小适配难、全量加载元数据、固定编码、索引独立管理耗内存(来源:“当前数据在向量存储上遇到的问题”章节)。 Lance:原生支持多模态数据;内置多种索引格式,低延时随机访问;AI数据集元数据布局减少开销(来源:同章节)。 腾讯向量技术领先性解析 专家与社区背书:方案由徐潇(腾讯数据技术专家、Apache Gravitino PMC)主导,依托Apache Gravitino构建统一元数据层(来源:文首作者介绍、“ 架构扩展性:统一向量支持跨引擎索引使用、多模态数据资产图谱构建,满足AI全生命周期(探索→分析→训练→评估)数据管理需求(来源:“统一的向量:扩展 Lakehouse 架构”图表)。

    14610编辑于 2026-04-27
领券