首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯大数据的专栏

    腾讯大数据天穹SuperSQL执行核心剖析

    “随着大数据技术的蓬勃发展,在大数据平台构建过程中也面临着很多挑战和困扰” 1. 数据孤岛:由于历史原因以及不同数据中心的业务差异性,众多异构数据源形成了数据孤岛,导致大量且繁重的人工数据搬迁。 与此同时,由于不同国家的数据安全法限制,很多数据无法搬迁,数据安全和查询效率都难以保证 2. SuperSQL是腾讯自研的统一数据自适应计算平台,以自适应作为串联,整合了不同的大数据组件。通过开放融合的架构,实现一套系统解决公有云、私有云、内网的大数据痛点问题。 腾讯天穹Presto实现了动态Catalog加载功能,允许在单一SQL中指定多个数据源Catalog,以实现跨源计算。 在天穹体系下,SuperSQL基于Data Fabric技术理念,设计出虚拟表方案实现湖仓一体。 虚拟表的本质是虚拟化,通过Schema虚拟化和数据虚拟化实现湖仓一体的融合。

    2.4K51编辑于 2024-04-28
  • 直面“AI曼哈顿计划”,中国科学智能的破局之道

    《意见》提出利用人工智能技术加速“从0到1”科学发现的核心引擎,通过科学模型建设、科研平台智能化升级、高质量科学数据集开放共享,提升跨模态数据处理能力,推动科研范式从线性探索转向智能驱动,助力破解基础学科重大难题 11月,美国紧随而来推出“创世纪计划”,这项被喻为“AI曼哈顿计划”的国家战略,集结全美超算资源与联邦数据,构建从假设提出、模拟计算到实验验证的全链条AI科研平台,重点攻关先进制造、生物技术、关键材料等六战略领域 从AlphaFold破解蛋白质结构预测难题,到气象模型提升预测精度,科学智能已展现出颠覆科研范式的巨大潜力,而足量且高质量的科研训练数据与算力基础设施,正是实现这一突破的首要条件。 这种技术优势正转化为实实在在的科研价值,在生物医药领域,“天穹”已推动多款药物进入临床前试验阶段,通过高精度模拟发现新的变构口袋及候选药物分子;在新材料领域,其支撑的电解液数据集成为国家新材料大数据中心门户首批入驻的 AI-Ready材料数据集,为锂电池等新材料研发注入算力动能,与此同时,3D科学计算机“天穹”的应用边界仍在持续拓展,为我国基础科学探索注入持久算力动能,为各领域科技突破提供全场景支撑。

    12910编辑于 2026-03-19
  • 来自专栏最新最全的大数据技术体系

    11数据面试题复习

    1)从 high-level 的角度来看,两者并没有的差别。 11、Spark为什么要持久化,一般什么场景下要进行persist操作?   为什么要进行持久化?   当表和小表join时,用map-side join能显著提高效率。 不一定,当数据规模小,Hash shuffle快于Sorted Shuffle数据规模的时候;当数据量大,sorted Shuffle会比Hash shuffle快很多,因为数量大的有很多小文件,不均匀 ,甚至出现数据倾斜,消耗内存,1.x之前spark使用hash,适合处理中小规模,1.x之后,增加了Sorted shuffle,Spark更能胜任大规模处理了。

    92912编辑于 2021-12-06
  • 来自专栏数据结构与算法

    11:整数减法

    11:整数减法 查看 提交 统计 提问 总时间限制: 1000ms 内存限制: 65536kB描述 求两个大的正整数相减的差。 输入共2行,第1行是被减数a,第2行是减数b(a > b)。 char a[10001]; 6 char b[10001]; 7 int a1[10001]; 8 int b1[10001]; 9 int c[10001]; 10 int main() 11

    1.4K100发布于 2018-04-11
  • 来自专栏腾讯大数据的专栏

    天穹SuperSQL:腾讯下一代大数据自适应计算引擎

    SuperSQL作为腾讯大数据智能计算平台的入口和决策中心,整合不同的大数据系统组件,旨在解决传统大数据架构下的痛点和难点问题,诸如大数据的语言门槛高、大数据引擎多而杂、大数据计算链路长而复杂、资源利用率低 ,自适应不同架构下的数据融合计算需求,通过自动数据冷热分层,多级缓存,提升存储访问性能 场景架构自适应:适配多云混合架构,实现最优的跨集群、跨DC、跨云计算路由,打通数据链路,解决数据孤岛 融合计算平台已在天穹落地 由于特征维度,训练数据多,模型训练慢,因此对特征进行降维。 为此,天穹Presto做了针对性的优化,在动态的计算环境中,通过感知节点算力的变化,自适应地调整计算任务的调度,避免低算力节点的影响。 天穹Presto自适应任务调度主要分为:Task自适应调度与Split自适应调度,方案实现的核心思想是:根据节点的算力情况动态分配Split和Task,整体架构如下图所示:  ‍ ‍天穹Presto

    6K20编辑于 2022-08-26
  • 来自专栏全栈程序员必看

    淘宝双11数据分析(数据可视化)

    文章目录 前言 本篇环境 结果展示 项目结构 前言 这一篇是最终篇,也是展示数据分析之后的结果的一篇。 其他文章: 淘宝双11数据分析(环境篇) 淘宝双11数据分析(数据准备篇) 淘宝双11数据分析(Hive 分析篇-上) 淘宝双11数据分析(Hive 分析篇-下) 淘宝双11数据分析(Spark

    5.8K20编辑于 2022-09-14
  • 来自专栏腾讯大数据的专栏

    天穹SuperSQL如何把腾讯 PB 级大数据计算做到秒级?

    天穹SuperSQL是腾讯自研,基于统一的SQL语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台。 Presto在腾讯天穹SuperSQL大数据生态中,定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。 得益于Presto的多数据源访问能力,天穹Presto支持对接了Hive、Iceberg、MySQL等数据源,且为了更好地支持内部的业务,我们也扩展开发了内部的TDW Connnector,支持访问腾讯内部的数据仓库数据 同时天穹Presto使用了Alluxio作为数据源(Hive表、Iceberg表)的缓存层,用于加速热点数据的访问,可有效提升Presto查询的效率。 3 稳定性提升 3.1 JVM调优 Presto在天穹上线运行的过程中,遇到过Worker Full GC停顿时间过长的问题,为此天穹Presto将JDK版本升级到了11(参考社区issue 14873

    2.1K51编辑于 2022-01-23
  • 来自专栏PPV课数据科学社区

    数据挖掘中易犯的11错误

    按照Elder博士的总结,这11易犯错误包括: 0.缺乏数据(LackData) 1.太关注训练(FocusonTraining) 2.只依赖一项技术(RelyonOneTechnique) 3.提错了问题 如果数据+工具就可以解决问题的话,还要人做什么呢4a.投机取巧的数据数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。 给数据加上时间戳,避免被误用。 6.抛弃了不该忽略的案例(DiscountPeskyCases) IDMer:到底是“宁为鸡头,不为凤尾”,还是“隐隐于市,小隐隐于野”? ,而是“这就有点奇怪了……”   数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个的业务问题。    (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了)   解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。

    71870发布于 2018-04-20
  • 来自专栏PPV课数据科学社区

    【译文】关于数据科学难以忽视的11真相

    . 9、Presentation is key - be a master of Power Point. 10、All models are false, but some are useful. 11 You need to get your hands dirty. 1、 数据都是没有清洗过的。 2、 你总是需要花费大量的时间准备和清洗数据。 3、 95%的任务不需要深度学习。 11、没有完全自动化的数据科学。很多你需要人工手动操作。 翻译:lily PPV课原创编译 转载请注明出处 原文链接:http://www.ppvke.com/Answer/? 2、回复“答案”查看大数据Hadoop面试笔试题及答案 3、回复“设计”查看这是我见过最逆天的设计,令人惊叹叫绝 4、回复“可视化”查看数据可视化专题-数据可视化案例与工具 5、回复“禅师”查看当禅师遇到一位理科生 知识无极限 6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布 7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载 8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募 9、

    81070发布于 2018-04-20
  • 来自专栏华章科技

    干货 :数据挖掘中易犯的11错误

    11易犯错误——Elder博士 0. 缺乏数据(Lack Data) 1. 太关注训练(Focus on Training) 2. 如果数据+工具就可以解决问题的话,还要人做什么呢? 4a.投机取巧的数据数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。 给数据加上时间戳,避免被误用。 6. 抛弃了不该忽略的案例(Discount Pesky Cases) IDMer:到底是“宁为鸡头,不为凤尾”,还是“隐隐于市,小隐隐于野”? ,而是“这就有点奇怪了……” 数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个的业务问题。 (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了) 解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。 10.

    29220发布于 2018-08-13
  • 来自专栏腾讯技术工程官方号的专栏

    腾讯 PB 级大数据计算如何做到秒级?

    天穹 SuperSQL 是腾讯自研,基于统一的 SQL 语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台。 Presto 在腾讯天穹 SuperSQL 大数据生态中,定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。 同时天穹 Presto 使用了 Alluxio 作为数据源(Hive 表、Iceberg 表)的缓存层,用于加速热点数据的访问,可有效提升 Presto 查询的效率。 2.3 Iceberg Connector 功能增强 腾讯天穹实时数仓-数据湖分析系统 DLA 使用了 Iceberg 作为表的数据组织格式,用户数据入湖后,可以通过 Presto Iceberg Connector 3 稳定性提升 3.1 JVM 调优 Presto 在天穹上线运行的过程中,遇到过 Worker Full GC 停顿时间过长的问题,为此天穹 Presto 将 JDK 版本升级到了 11(参考社区 issue

    2.1K21编辑于 2022-01-21
  • 来自专栏灯塔大数据

    必看 :大数据挖掘中易犯的11错误

    4 只靠数据来说话(Listen(only)totheData) IDMer:“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗!如果数据+工具就可以解决问题的话,还要人做什么呢? 4a.投机取巧的数据数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。 4b.经过设计的实验:某些实验设计中掺杂了人为的成分,这样的实验结果也常不可信。 给数据加上时间戳,避免被误用。 6 抛弃了不该忽略的案例(DiscountPeskyCases) IDMer:到底是“宁为鸡头,不为凤尾”,还是“隐隐于市,小隐隐于野”? ,而是“这就有点奇怪了……” 数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个的业务问题。 (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时,原始数据集中违约客户的权重已经被提高过了) 解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。

    67370发布于 2018-04-09
  • 来自专栏PPV课数据科学社区

    世界杯11数据:20位前冠军出战

    随着全部32支参赛队的23人名单基本敲定,国际足联官方列出本届杯赛的11数据,本届杯赛共有236人参加过世界杯,包括20位前冠军,最年轻及最年长的球队分别是加纳和阿根廷,所有球员的平均年龄为 岁零1个月,是本届杯赛最年轻的球员,也有望成为世界杯历史第9年轻的球员,但即便是喀麦隆历史,也有3名球员出征世界 杯时比他年轻,分别是埃托奥(17岁零3个月)、奥莱姆贝(17岁零6个月)以及宋(17岁零11

    74460发布于 2018-04-19
  • 来自专栏数据饕餮

    数据仓库专题(7)-维度建模11基本原则

    遵循这些原则进行维度建模可以保证数据粒度合理,模型灵活,能够适应未来的信息资源,违反这些原则你将会把用户弄糊涂,并且会遇到数据仓库障碍。本文适用于多维建模,不使用于3NF建模。 用户想要掩盖哪些数据,想要显示哪些数据,如果只有汇总数据,那么你已经设定了数据的使用模式,当用户想要深入挖掘数据时他们就会遇到障碍。 当然,原子数 据也可以通过概要维度建模进行补充,但企业用户无法只在汇总数据上工作,他们需要原始数据回答不断变化的问题。 原则9、创建一致的维度集成整个企业的数据    对于企业数据仓库一致的维度,是最基本的原则,在ETL系统中管理一次,然后在所有事实表中都可以重用,一致的维度在 整个维度模型中可以获得一致的描述属性,可以支持从多个业务流程中整合数据 原则11、基于OLAP分析各操作进行维度设计指导          从结果反思设计过程,基于OLAP钻取、上钻、下钻、切片、切块的业务需求,设计你的维度模型。 三、未完待续      

    2.2K30发布于 2019-01-14
  • 来自专栏随手写个文章

    天穹OS】虚拟表:支持极速查询的下一代湖仓一体新范式

    当今已存在的许多湖仓一体的产品,他们都是非常优秀的架构和技术,下面着重说明一下两主流湖仓一体方向:基于数据湖的湖仓一体架构,以DeltaLake为代表 [1]如图2,DataLake 作为中央数据湖, 前些年基于维度建模、解决数据孤岛的中央数据仓库热,所有的数据都在往里灌,存储了海量(ZB)的数据;但是现在业界许多公司的中央数据仓库落后主流技术一两代,在需要迭代升级、降本提效的时候却面临而迁移不动的尴尬 当前小马BI 已支持配置SuperSQL(天穹数据数据仓库统一入口)作为数据源来对接TDW的表数据,用户就无需将天穹数据仓库的表数据进行预处理后导入StarRocks、Mysql等数据(仓)库中。 支持的场景4: 天穹数据仓库升级天穹数据仓库在这么多年以来支持公司内各个BG的业务,取得了非常好的业务成果。 虚拟表短期想达到的目标:支持天穹数据仓库极速查询场景一条 SQL 查询天穹数据仓库所有数据,无数据孤岛、体验一体化根据用户指定的成本提供查询体验(速度、稳定性、一致性等)天穹数据仓库无痛升级参考[1]

    2.4K212编辑于 2023-10-31
  • 来自专栏数据猿

    【AI模型展】思必驰DFM模型——具有通用智能、针对垂域的行业语言模型

    思必驰DFM模型 该AI模型由思必驰投递并参与数智猿×数据猿×上海大数据联盟共同推出的《2025中国数智产业AI模型先锋企业》榜单/奖项评选。 大数据产业创新服务媒体 ——聚焦数据 · 改变商业 思必驰自研的对话式语言模型DFM(Dialogue Foundation Model),中文直译为“通用对话基础模型”,具备通用语言计算模型的所有 具体来看,思必驰可为客户提供数据工程、基底模型、训练平台、提示词工程等一系列模型所需的技术工程资源,并结合客户的高端智算算力、专有场景数据,实现垂直领域的模型大规模可定制能力,赋能智能汽车、智能家居 技术说明 在规模量级上,思必驰DFM模型是百亿量级的行业语言模型,在一些公开数据集的国际测试中,在同等规模的百亿级模型中,DFM性能明显处于领先优势。 点击文末“阅读原文”链接还可查看思必驰DFM模型官网 ★以上由思必驰投递申报的项目案例,最终将会角逐由数智猿×数据猿×上海大数据联盟联合推出的《2025中国数智产业AI模型先锋企业》榜单/奖项。

    55010编辑于 2025-10-21
  • 来自专栏CDA数据分析师

    数据挖掘过程中绝不能犯这11错误

    只靠数据来说话(Listen (only) to the Data)   IDMer:“让数据说话”没有错,关键是还要记得另一句话:兼听则明,偏听则暗! 如果数据+工具就可以解决问题的话,还要人做什么呢?   投机取巧的数据数据本身只能帮助分析人员找到什么是显著的结果,但它并不能告诉你结果是对还是错。    给数据加上时间戳,避免被误用。 7. 抛弃了不该忽略的案例(Discount Pesky Cases)   IDMer:到底是“宁为鸡头,不为凤尾”,还是“隐隐于市,小隐隐于野”? ,而是“这就有点奇怪了……”   数据中的不一致性有可能会是解决问题的线索,深挖下去也许可以解决一个的业务问题。    (问题出在数据集的划分上。在把原始数据集划分为训 练集和测试集时,原始数据集中违约客户的权重已经被提高过了) 解决方法:先进行数据集划分,然后再提高训练集中违约客户的权重。 11.

    69060发布于 2018-02-08
  • 来自专栏深度学习与python

    天穹SuperSQL:腾讯下一代大数据自适应计算引擎 | 文末送书

    SuperSQL 作为腾讯大数据智能计算平台的入口和决策中心,整合不同的大数据系统组件,旨在解决传统大数据架构下的痛点和难点问题,诸如大数据的语言门槛高、大数据引擎多而杂、大数据计算链路长而复杂、资源利用率低 数据编排层适配不同异构存储,透明化存储差异,解耦计算和存储。自主学习数据访问模式,自适应缓存热点数据和元数据,加速数据访问性能,提升集群稳定性。 由于特征维度,训练数据多,模型训练慢,因此对特征进行降维。 为此,天穹 Presto 做了针对性的优化,在动态的计算环境中,通过感知节点算力的变化,自适应地调整计算任务的调度,避免低算力节点的影响。 天穹 Presto 自适应任务调度主要分为:Task 自适应调度与 Split 自适应调度,方案实现的核心思想是:根据节点的算力情况动态分配 Split 和 Task,整体架构如下图所示: 天穹 Presto

    1.6K10编辑于 2023-03-29
  • 来自专栏代码日志

    2026年03月12日 AI早报

    4.19万亿Token调用量激增34.9%超越美国 国内“养虾”类AI应用爆发式增长,2025年累计调用国产模型超4.19万亿Token,同比增长34.9%,首次在活跃度上超过美国同类应用。 > 来源:鹭羽观察 ChatGPT与Claude用户重叠仅11%,中国AI应用霸榜移动端 Despite intense competition, only 11% of users overlap > 来源:36氪 ️ 追觅发布「天穹」芯片,首个太空算力盒即将发射 追觅芯际推出自研「天穹」系列AI芯片,正式量产并集成于全球首个“太空算力盒”,计划近期随商业航天任务进入低轨。 > 来源:最前线 昂跑拓展AI健康生态,跑鞋之后布局运动科学平台 瑞士运动品牌昂跑宣布进军AI健康管理领域,计划整合生物数据与训练模型,打造个性化运动建议系统。 > 来源:The Verge Meta发布四款AI芯片,挑战英伟达与AMD在数据中心地位 Meta推出自研AI训练与推理芯片共四款,已部署于内部AI基础设施。

    81910编辑于 2026-03-16
  • 来自专栏Java项目实战

    1100万11秒SQL优化

    时间:上周六刚刚从外面回来,报出生产数据慢SQL开始优化select t.x te.xfrom o_detail tleft join p_detail teon t.A = te.A and t.B t.A = '' and t.B = ''and te.C = '' and t.D = 0group by t.B,t.C,te.X,te.id,te.Y分析执行计划因为te表未用到索引造成全表扫描表总数据条数那就看看为什么没走索引 怎么才能走索引  业务能不能优化 影不影响主数据? 先强制走te表索引或者覆合索引效果显著但是现在在模拟生产数据后te表仍然无法走任何索引思路一:查询t表,te表,全部索引show index from tshow index from te字段索引都有为什么不走

    27830编辑于 2023-06-30
领券