首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯大数据的专栏

    腾讯大数据天穹SuperSQL执行核心剖析

    “随着大数据技术的蓬勃发展,在大数据平台构建过程中也面临着很多挑战和困扰” 1. 数据孤岛:由于历史原因以及不同数据中心的业务差异性,众多异构数据源形成了数据孤岛,导致大量且繁重的人工数据搬迁。 与此同时,由于不同国家的数据安全法限制,很多数据无法搬迁,数据安全和查询效率都难以保证 2. SuperSQL是腾讯自研的统一数据自适应计算平台,以自适应作为串联,整合了不同的大数据组件。通过开放融合的架构,实现一套系统解决公有云、私有云、内网的大数据痛点问题。 腾讯天穹Presto实现了动态Catalog加载功能,允许在单一SQL中指定多个数据源Catalog,以实现跨源计算。 在天穹体系下,SuperSQL基于Data Fabric技术理念,设计出虚拟表方案实现湖仓一体。 虚拟表的本质是虚拟化,通过Schema虚拟化和数据虚拟化实现湖仓一体的融合。

    2.3K51编辑于 2024-04-28
  • 来自专栏腾讯大数据的专栏

    天穹SuperSQL:腾讯下一代大数据自适应计算引擎

    SuperSQL作为腾讯大数据智能计算平台的入口和决策中心,整合不同的大数据系统组件,旨在解决传统大数据架构下的痛点和难点问题,诸如大数据的语言门槛高、大数据引擎多而杂、大数据计算链路长而复杂、资源利用率低 ,自适应不同架构下的数据融合计算需求,通过自动数据冷热分层,多级缓存,提升存储访问性能 场景架构自适应:适配多云混合架构,实现最优的跨集群、跨DC、跨云计算路由,打通数据链路,解决数据孤岛 融合计算平台已在天穹落地 由于特征维度,训练数据多,模型训练慢,因此对特征进行降维。 为此,天穹Presto做了针对性的优化,在动态的计算环境中,通过感知节点算力的变化,自适应地调整计算任务的调度,避免低算力节点的影响。 天穹Presto自适应任务调度主要分为:Task自适应调度与Split自适应调度,方案实现的核心思想是:根据节点的算力情况动态分配Split和Task,整体架构如下图所示:  ‍ ‍天穹Presto

    6K20编辑于 2022-08-26
  • 直面“AI曼哈顿计划”,中国科学智能的破局之道

    《意见》提出利用人工智能技术加速“从0到1”科学发现的核心引擎,通过科学模型建设、科研平台智能化升级、高质量科学数据集开放共享,提升跨模态数据处理能力,推动科研范式从线性探索转向智能驱动,助力破解基础学科重大难题 11月,美国紧随而来推出“创世纪计划”,这项被喻为“AI曼哈顿计划”的国家战略,集结全美超算资源与联邦数据,构建从假设提出、模拟计算到实验验证的全链条AI科研平台,重点攻关先进制造、生物技术、关键材料等六战略领域 从AlphaFold破解蛋白质结构预测难题,到气象模型提升预测精度,科学智能已展现出颠覆科研范式的巨大潜力,而足量且高质量的科研训练数据与算力基础设施,正是实现这一突破的首要条件。 这种技术优势正转化为实实在在的科研价值,在生物医药领域,“天穹”已推动多款药物进入临床前试验阶段,通过高精度模拟发现新的变构口袋及候选药物分子;在新材料领域,其支撑的电解液数据集成为国家新材料大数据中心门户首批入驻的 AI-Ready材料数据集,为锂电池等新材料研发注入算力动能,与此同时,3D科学计算机“天穹”的应用边界仍在持续拓展,为我国基础科学探索注入持久算力动能,为各领域科技突破提供全场景支撑。

    11110编辑于 2026-03-19
  • 来自专栏腾讯大数据的专栏

    天穹SuperSQL如何把腾讯 PB 级大数据计算做到秒级?

    天穹SuperSQL是腾讯自研,基于统一的SQL语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台。 Presto在腾讯天穹SuperSQL大数据生态中,定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。 得益于Presto的多数据源访问能力,天穹Presto支持对接了Hive、Iceberg、MySQL等数据源,且为了更好地支持内部的业务,我们也扩展开发了内部的TDW Connnector,支持访问腾讯内部的数据仓库数据 同时天穹Presto使用了Alluxio作为数据源(Hive表、Iceberg表)的缓存层,用于加速热点数据的访问,可有效提升Presto查询的效率。 2.3 Iceberg Connector功能增强 腾讯天穹实时数仓-数据湖分析系统DLA使用了Iceberg作为表的数据组织格式,用户数据入湖后,可以通过Presto Iceberg Connector

    2.1K51编辑于 2022-01-23
  • 来自专栏腾讯大数据的专栏

    「解耦」方能「专注」——腾讯天穹SuperSQL跨引擎计算揭秘

    天穹SuperSQL是腾讯自研的跨数据源、跨数据中心、跨计算引擎的大数据SQL引擎,能够满足位于不同数据中心、不同类型数据源的数据联合分析/即时查询的需求。 在腾讯整个天穹数据图谱中,负责连接端与存储。 数据源无论是关系型数据库、NoSQL还是大数据系统;数据存储无论是跨集群还是跨数据中心;数据计算无论是报表生成、分析挖掘还是交互式查询......SuperSQL作为统一的SQL引擎,都能够提供统一的异构数据管理和联邦分析入口 因为计算引擎仅从各个数据源获取子查询下推后的中间结果,其相比原始数据表的数据量通常小很多,这就能够节省DC间有限的网络带宽资源。 以上就是这篇文章的全部内容了,大家如果对腾讯天穹SuperSQL有疑问,欢迎随时留言给我们。

    3.5K10发布于 2020-06-16
  • 来自专栏腾讯技术工程官方号的专栏

    腾讯 PB 级大数据计算如何做到秒级?

    天穹 SuperSQL 是腾讯自研,基于统一的 SQL 语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台。 Presto 在腾讯天穹 SuperSQL 大数据生态中,定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。 得益于 Presto 的多数据源访问能力,天穹 Presto 支持对接了 Hive、Iceberg、MySQL 等数据源,且为了更好地支持内部的业务,我们也扩展开发了内部的 TDW Connnector 同时天穹 Presto 使用了 Alluxio 作为数据源(Hive 表、Iceberg 表)的缓存层,用于加速热点数据的访问,可有效提升 Presto 查询的效率。 2.3 Iceberg Connector 功能增强 腾讯天穹实时数仓-数据湖分析系统 DLA 使用了 Iceberg 作为表的数据组织格式,用户数据入湖后,可以通过 Presto Iceberg Connector

    2.1K21编辑于 2022-01-21
  • 来自专栏数据猿

    【AI模型展】思必驰DFM模型——具有通用智能、针对垂域的行业语言模型

    思必驰DFM模型 该AI模型由思必驰投递并参与数智猿×数据猿×上海大数据联盟共同推出的《2025中国数智产业AI模型先锋企业》榜单/奖项评选。 大数据产业创新服务媒体 ——聚焦数据 · 改变商业 思必驰自研的对话式语言模型DFM(Dialogue Foundation Model),中文直译为“通用对话基础模型”,具备通用语言计算模型的所有 具体来看,思必驰可为客户提供数据工程、基底模型、训练平台、提示词工程等一系列模型所需的技术工程资源,并结合客户的高端智算算力、专有场景数据,实现垂直领域的模型大规模可定制能力,赋能智能汽车、智能家居 技术说明 在规模量级上,思必驰DFM模型是百亿量级的行业语言模型,在一些公开数据集的国际测试中,在同等规模的百亿级模型中,DFM性能明显处于领先优势。 点击文末“阅读原文”链接还可查看思必驰DFM模型官网 ★以上由思必驰投递申报的项目案例,最终将会角逐由数智猿×数据猿×上海大数据联盟联合推出的《2025中国数智产业AI模型先锋企业》榜单/奖项。

    45210编辑于 2025-10-21
  • 来自专栏随手写个文章

    天穹OS】虚拟表:支持极速查询的下一代湖仓一体新范式

    当今已存在的许多湖仓一体的产品,他们都是非常优秀的架构和技术,下面着重说明一下两主流湖仓一体方向:基于数据湖的湖仓一体架构,以DeltaLake为代表 [1]如图2,DataLake 作为中央数据湖, 前些年基于维度建模、解决数据孤岛的中央数据仓库热,所有的数据都在往里灌,存储了海量(ZB)的数据;但是现在业界许多公司的中央数据仓库落后主流技术一两代,在需要迭代升级、降本提效的时候却面临而迁移不动的尴尬 当前小马BI 已支持配置SuperSQL(天穹数据数据仓库统一入口)作为数据源来对接TDW的表数据,用户就无需将天穹数据仓库的表数据进行预处理后导入StarRocks、Mysql等数据(仓)库中。 支持的场景4: 天穹数据仓库升级天穹数据仓库在这么多年以来支持公司内各个BG的业务,取得了非常好的业务成果。 虚拟表短期想达到的目标:支持天穹数据仓库极速查询场景一条 SQL 查询天穹数据仓库所有数据,无数据孤岛、体验一体化根据用户指定的成本提供查询体验(速度、稳定性、一致性等)天穹数据仓库无痛升级参考[1]

    2.4K212编辑于 2023-10-31
  • 来自专栏深度学习与python

    天穹SuperSQL:腾讯下一代大数据自适应计算引擎 | 文末送书

    SuperSQL 作为腾讯大数据智能计算平台的入口和决策中心,整合不同的大数据系统组件,旨在解决传统大数据架构下的痛点和难点问题,诸如大数据的语言门槛高、大数据引擎多而杂、大数据计算链路长而复杂、资源利用率低 数据编排层适配不同异构存储,透明化存储差异,解耦计算和存储。自主学习数据访问模式,自适应缓存热点数据和元数据,加速数据访问性能,提升集群稳定性。 由于特征维度,训练数据多,模型训练慢,因此对特征进行降维。 为此,天穹 Presto 做了针对性的优化,在动态的计算环境中,通过感知节点算力的变化,自适应地调整计算任务的调度,避免低算力节点的影响。 天穹 Presto 自适应任务调度主要分为:Task 自适应调度与 Split 自适应调度,方案实现的核心思想是:根据节点的算力情况动态分配 Split 和 Task,整体架构如下图所示: 天穹 Presto

    1.6K10编辑于 2023-03-29
  • 来自专栏腾讯大数据的专栏

    天穹DOP 在腾讯广告经营数仓场景的应用实践

    对此场景,天穹DOP团队,设计了缓存架构解决热点数据问题,并通过一系列实践措施,对查询效率和存储性能进行了重点优化: ■ 统计 SQL 执行与数据表访问的频率,找到热点库表信息; ■ 统计存储引擎审计日志 识别并区分出热点和非热点数据后,通过天穹 DOP Cache 路径级的黑白名单能力,就可以保证热点数据访问 DOP Cache,非热点数据直接访问底层存储。 对于热点数据天穹 DOP Cache 通过高性能 SSD 介质和 IO 隔离能力,可以提升读取性能。 /Presto 等引擎进行数据分析,天穹DOP Cache 集群作为数据缓存层,负责热点数据的缓存,承接热数据 IO,整体架构如图: 2.DOP Cache 智能缓存管理与性能优化功能 基于 ZK 的黑白名单功能 此外,引入天穹 DOP Cache 后,底层存储节点的请求峰值整体下降 50%+,提升了底层存储系统的稳定性。 通过实施上述方案,腾讯广告业务数据仓库场景中SQL的平均执行时间有了显著下降。

    61310编辑于 2024-06-27
  • 来自专栏腾讯大数据的专栏

    腾讯天穹 StarRocks 一站式湖仓融合平台架构揭秘

    作者:腾讯大数据 高级工程师 陈九天 导读: 腾讯天穹是协同腾讯内各 BG 大数据能力而生的 Oteam,作为腾讯大数据领域的代名词,旨在拉通大数据各个技术组件,打造一个具有统一技术栈的公司级大数据平台体系 天穹 StarRocks 的解决方案 01、湖仓数据流转 对于湖仓相互流转,其实我们可以拓展出两个场景: 湖入仓的场景,将数据湖中的数据导入到 StarRocks,用来加速查询。 08、天穹 StarRocks 湖仓融合架构 通过解决以上问题,我们构建了天穹 StarRocks 湖仓融合架构的最终形态。 我们公司内部有大量的存量表还在使用 RCfile,为了将这些表也能够纳入到天穹架构,我们通过 JNI 的方式支持了 RCfile 数据的读取。 同时我们也会基于天穹 OMS 的元数据更新机制去实现外表物化视图的增量更新。 在产品化的方面,天穹 StarRocks 将借助于 WeDATA 的产品能力,为用户提供更好的湖仓融合服务。

    1.8K10编辑于 2024-03-07
  • 来自专栏腾讯大数据的专栏

    智能计算 | 天穹SuperSQL如何利用机器学习实现计算引擎自适应

    导语 SuperSQL是腾讯天穹自研的下一代大数据自适应计算平台。通过开放融合的架构,实现一套代码高效解决公有云、私有云、内网的任何大数据计算场景问题。 智能计算引擎选择是SuperSQL的核心特性之一,目前已经覆盖天穹的所有SQL,达到千万级别。 但Presto计算失败已经浪费了有限的Presto计算资源,部分SQL甚至可能造成Presto集群的临时过载或故障,当前现网日均的Presto SQL failover数约为近万条+。 天穹平台大脑致力于探索并落地前沿人工智能技术,用于大数据系统的自感知、自决策、自优化过程,在自动黑盒优化、基于机器学习的智能决策方面目前已经取得了一定成果,目前已经在公司多个业务规模落地自动化spark 2、特征选择 由于特征维度(50万),训练数据多(100万),模型训练慢,因此需要对特征进行降维。

    1.8K30编辑于 2022-11-03
  • 来自专栏大数据文摘

    数据机遇还是忽悠?

    持反方观点,为技术时代的到来欢呼的,一位是北京大学光华管理学院新媒体营销研究中心副主任苏萌,另一位是日本政治家、内阁成员山本一太。 他提出“一台电脑论”,即科学家们研究所需的数据,最好用一台电脑就能装下,否则数据处理会过于繁琐,无助于解决问题。他结合自身经验说,随着数据量的增大,研究的准确性一开始会随之上升,但很快就会趋平。 这有三个原因:一是因为不同机构间的数据还未真正流动起来,目前还只是数据“孤岛”;二是完整的生态产业链还未形成,尽管通过行为数据分析已能够分辨出一个消费者的喜好,但从供应到购买的链条还没建成;三是因为数据分析人才仍然极度匮乏 一位听众挑战正方,说,你们认为大数据过于庞杂纷繁,反而解决不了问题,那是不是说,当处理数据的计算工具变得足够好时,大数据就会变得有用? 正如Howard在发表“失败感言”时所说,“我们并非反对数据,只是反对大而无当的数据数据本身当然非常重要”。人类已经并将继续产生日益庞大的数据,或许不论我们接受与否,大数据时代都已到来。

    4.1K81发布于 2018-05-18
  • 来自专栏Metaverse元宇宙

    今日元宇宙| 广州南沙出台措施“元宇宙九条”,天穹数藏回应跑路传闻表示平台运行正常

      今日看点:广州南沙将出台推动元宇宙生态发展措施,打造元宇宙产业高地;天穹数藏回应跑路传闻称平台运行正常;哔哩哔哩海外 NFT 项目 Cheers UP Period 地板价达 0.898 ETH,创历史新高 天穹数藏回应跑路传闻:平台运行正常   据鞭牛士报道,近日,网传天穹元宇宙数字藏品平台发布最后的公告,称其因经营不善跑路,并将用户称为韭菜。 随后,天穹数藏回应称,平台运行正常,目前正在测试新版本功能以及优化。对于恶意造谣及 PS 的始作俑者正追查出处。官方还提醒用户,及时修改密码。 此前报道,国内天穹数藏宣称遭黑客攻击,黑客利用虚假余额购买盗取用户的藏品。 海外   哔哩哔哩海外 NFT 项目 Cheers UP Period 地板价达 0.898 ETH,创历史新高   巴比特讯,NFTGo.io 数据显示,哔哩哔哩海外 NFT 项目 Cheers UP

    56620编辑于 2022-08-30
  • 来自专栏腾讯大数据的专栏

    直播|分析型湖仓论坛

    本论坛由腾讯大数据联合DataFun联合举办,邀请到了来自腾讯、阿里、Cloudera、炎凰数据、镜舟科技等公司的几位专家,分享关于他们的新一代湖仓融合架构,以及如何使用物化视图加速数据湖查询,数据湖查询引擎优化等方面的内容 出品人:程广旭 腾讯 TEG 数据平台部 专家工程师 个人介绍:腾讯大数据 OLAP 平台技术负责人,Apache HBase/InLong PMC 成员,有10年数据相关工作经验,专注在 OLAP 演讲题目:天穹OLAP:实时湖仓融合平台架构实践 演讲提纲:本次分享将会介绍基于天穹 OLAP 平台的实时湖仓融合架构。主要内容包括: 1. 腾讯大数据后续如何更进一步升级湖仓融合架构 听众收益: 1. 了解当前数据湖及实时数仓的优劣,并了解腾讯大数据是如何解决当前湖仓融合的痛点 2. Impala 的内存优化 彭江涛 炎凰数据 研发工程师 个人介绍:毕业于上海交通大学,一直从事数据处理和数据分析相关的系统研发工作。

    69120编辑于 2023-07-12
  • 来自专栏服务端技术杂谈

    :UBER数据迁徙

    数据迁移的日期定为万圣节(10月31日),而这恰是交通量会非常高的一天。 上面图中的大问题是:我们仍然依赖于单一的PostgreSQL (数据库管理系统)来存储大部分的数据。下面的饼图显示了数据是如何在数据库中分配的: ? 我们评估了各种NoSQL(不同于传统的关系数据库的数据库管理系统的统称)的具有上述特点风格的数据库。 追加(无更新)数据模型:它仅支持一个只追加数据模型中,一旦它被写入后,就不能进行修改。这对于存储交易数据,并希望防止数据损坏的系统是非常有用的。由于是只追加模型,修改会自然幂等和交换。 在真正可以开始迁移之前,第一个任务是从用户身份到用户唯一识别码的迁移,因为原代码依赖于自动递增的PostgreSQL 数据库标识符。几百条SQL查询需要被重写。

    2.8K70发布于 2018-04-16
  • 来自专栏代码日志

    2026年03月12日 AI早报

    4.19万亿Token调用量激增34.9%超越美国 国内“养虾”类AI应用爆发式增长,2025年累计调用国产模型超4.19万亿Token,同比增长34.9%,首次在活跃度上超过美国同类应用。 > 来源:36氪 ️ 追觅发布「天穹」芯片,首个太空算力盒即将发射 追觅芯际推出自研「天穹」系列AI芯片,正式量产并集成于全球首个“太空算力盒”,计划近期随商业航天任务进入低轨。 > 来源:最前线 昂跑拓展AI健康生态,跑鞋之后布局运动科学平台 瑞士运动品牌昂跑宣布进军AI健康管理领域,计划整合生物数据与训练模型,打造个性化运动建议系统。 > 来源:The Verge Meta发布四款AI芯片,挑战英伟达与AMD在数据中心地位 Meta推出自研AI训练与推理芯片共四款,已部署于内部AI基础设施。

    61310编辑于 2026-03-16
  • 来自专栏腾讯大讲堂的专栏

    超两万技术人员如何减少重复造轮子?腾讯推进内部开源协同

    以腾讯公司级大数据平台体系“天穹”项目为例,在天穹项目下,腾讯将内部的大数据技术开源共建,首批开源的组件项目包括Hadoop、Spark、Flink等应用广泛、技术成熟的公共基础类项目。 腾讯大数据负责人刘煜宏介绍,之前有些业务BG各自建设了一套业务级的大数据平台,“我记得以前腾讯被吐槽,说我们的平台不互通,互相隔离。 这次开源协同后,我们搞了一个天穹项目,把公司所有大数据平台都整合起来,技术资源也聚拢起来了,一起建设公司的大数据基础平台。” 腾讯选择了工作方式上的“开源协同”,而并非通过团队调整建立庞大的技术“中台”,这区别于另一互联网公司阿里巴巴的做法。 腾讯副总裁王巨宏介绍,腾讯没有刻意提“中台”的概念,“因为我们在内部有非常多的中台,每一样中台服务的对象、内容不同,差别会非常

    1.4K20发布于 2019-12-19
  • 来自专栏腾讯大数据的专栏

    活动|腾讯大数据×2024数据智能大会技术交流回顾

    尽管现在AI和模型是热门话题,但要让其发挥作用,基础工作是关键,我们需要在数据协同、数据价值发挥等方面做更多,以确保数据智能的广泛应用。 数据智能创新应用论坛-专题分享 数据普惠——模型催生天穹数据研发新范式 黄丹青专家在大会数据智能创新应用论坛,分享了腾讯大数据智能化团队如何通过构建自动驾驶的大数据平台和降低数据分析门槛来实现数据普惠 ▲点击观看现场完整视频 ▍腾讯大数据天穹智能化建设全景 在大数据领域,随着技术的发展,大数据平台的规模越来越大,成本、效率和质量构成了新的“不可能三角”。 对数据应用场景,利用智能化技术降低数据分析的门槛,实现数据普惠,打造一个“人人都是数据分析师”的大数据生态。 ▍为什么模型让“数据普惠”离我们更近了? 模型的引入,为数据普惠带来了新的可能。 找数:主要是数据资产理解与元数据治理,利用模型帮助更有效地定位和了解如何使用资产, 这里模型介入的难点在于元数据质量参差不齐、知识整理标准不一、人力维护消耗

    96310编辑于 2024-06-27
  • 知乎 PB 级别 TiDB 数据库集群管控实践

    本文由知乎数据库架构团队负责人代晓磊撰写,深入探讨知乎如何利用 TiDB 的生态架构和平台化运维工具,结合 TiDB Operator 和自研的天穹平台,构建出灵活、稳定且高效的数据库管控体系。 知乎通过自研的天穹平台来承接,面向业务研发团队和面向 DBA 团队的需求和侧重点有所不同。以下是天穹平台对这 2 个纬度的支撑情况:1. 以下是平台化的几个关键点:自助服务能力 自助资源申请/下线:研发人员可以通过天穹平台自助申请数据库实例、存储资源、 读写分离等服务,而不需要依赖运维团队或 DBA 手动分配。 工单中心:天穹平台为研发人员提供数据库变更工单中心模块,能够根据不同的业务变更需求自助审批和执行。 同时探讨了知乎如何在云上和云下环境中管控 TiDB 集群,以及如何通过自研的天穹平台实现数据库平台化建设,提升业务研发团队数据库变更和 DBA 团队的资源管控效率。

    57210编辑于 2024-12-18
领券