搜索 - 腾讯云开发者社区-腾讯云

文章/答案/技术大牛

发布

来自专栏腾讯大数据的专栏
腾讯大数据｜天穹SuperSQL执行核心剖析
“随着大数据技术的蓬勃发展，在大数据平台构建过程中也面临着很多挑战和困扰” 1. 数据孤岛：由于历史原因以及不同数据中心的业务差异性，众多异构数据源形成了数据孤岛，导致大量且繁重的人工数据搬迁。与此同时，由于不同国家的数据安全法限制，很多数据无法搬迁，数据安全和查询效率都难以保证 2. SuperSQL是腾讯自研的统一大数据自适应计算平台，以自适应作为串联，整合了不同的大数据组件。通过开放融合的架构，实现一套系统解决公有云、私有云、内网的大数据痛点问题。腾讯天穹Presto实现了动态Catalog加载功能，允许在单一SQL中指定多个数据源Catalog，以实现跨源计算。在天穹体系下，SuperSQL基于Data Fabric技术理念，设计出虚拟表方案实现湖仓一体。虚拟表的本质是虚拟化，通过Schema虚拟化和数据虚拟化实现湖仓一体的融合。
2.4K51编辑于 2024-04-28
直面“AI曼哈顿计划”，中国科学智能的破局之道
《意见》提出利用人工智能技术加速“从0到1”科学发现的核心引擎，通过科学大模型建设、科研平台智能化升级、高质量科学数据集开放共享，提升跨模态数据处理能力，推动科研范式从线性探索转向智能驱动，助力破解基础学科重大难题 11月，美国紧随而来推出“创世纪计划”，这项被喻为“AI曼哈顿计划”的国家战略，集结全美超算资源与联邦数据，构建从假设提出、模拟计算到实验验证的全链条AI科研平台，重点攻关先进制造、生物技术、关键材料等六大战略领域从AlphaFold破解蛋白质结构预测难题，到气象大模型提升预测精度，科学智能已展现出颠覆科研范式的巨大潜力，而足量且高质量的科研训练数据与算力基础设施，正是实现这一突破的首要条件。这种技术优势正转化为实实在在的科研价值，在生物医药领域，“天穹”已推动多款药物进入临床前试验阶段，通过高精度模拟发现新的变构口袋及候选药物分子；在新材料领域，其支撑的电解液数据集成为国家新材料大数据中心门户首批入驻的 AI-Ready材料数据集，为锂电池等新材料研发注入算力动能，与此同时，3D科学计算机“天穹”的应用边界仍在持续拓展，为我国基础科学探索注入持久算力动能，为各领域科技突破提供全场景支撑。
12910编辑于 2026-03-19
来自专栏最新最全的大数据技术体系
11月大数据面试题复习
1）从 high-level 的角度来看，两者并没有大的差别。 11、Spark为什么要持久化，一般什么场景下要进行persist操作？为什么要进行持久化？当大表和小表join时，用map-side join能显著提高效率。不一定，当数据规模小，Hash shuffle快于Sorted Shuffle数据规模大的时候；当数据量大，sorted Shuffle会比Hash shuffle快很多，因为数量大的有很多小文件，不均匀，甚至出现数据倾斜，消耗内存大，1.x之前spark使用hash，适合处理中小规模，1.x之后，增加了Sorted shuffle，Spark更能胜任大规模处理了。
92912编辑于 2021-12-06
来自专栏数据结构与算法
11:大整数减法
11:大整数减法查看提交统计提问总时间限制: 1000ms 内存限制: 65536kB描述求两个大的正整数相减的差。输入共2行，第1行是被减数a，第2行是减数b(a > b)。 char a[10001]; 6 char b[10001]; 7 int a1[10001]; 8 int b1[10001]; 9 int c[10001]; 10 int main() 11
1.4K100发布于 2018-04-11
来自专栏腾讯大数据的专栏
天穹SuperSQL：腾讯下一代大数据自适应计算引擎
SuperSQL作为腾讯大数据智能计算平台的入口和决策中心，整合不同的大数据系统组件，旨在解决传统大数据架构下的痛点和难点问题，诸如大数据的语言门槛高、大数据引擎多而杂、大数据计算链路长而复杂、资源利用率低，自适应不同架构下的数据融合计算需求，通过自动数据冷热分层，多级缓存，提升存储访问性能场景架构自适应：适配多云混合架构，实现最优的跨集群、跨DC、跨云计算路由，打通数据链路，解决数据孤岛融合计算平台已在天穹落地由于特征维度大，训练数据多，模型训练慢，因此对特征进行降维。为此，天穹Presto做了针对性的优化，在动态的计算环境中，通过感知节点算力的变化，自适应地调整计算任务的调度，避免低算力节点的影响。天穹Presto自适应任务调度主要分为：Task自适应调度与Split自适应调度，方案实现的核心思想是：根据节点的算力情况动态分配Split和Task，整体架构如下图所示： ‍ ‍天穹Presto
6K20编辑于 2022-08-26
来自专栏全栈程序员必看
淘宝双11大数据分析（数据可视化）
文章目录前言本篇环境结果展示项目结构前言这一篇是最终篇，也是展示数据分析之后的结果的一篇。其他文章：淘宝双11大数据分析（环境篇）淘宝双11大数据分析（数据准备篇）淘宝双11大数据分析（Hive 分析篇-上）淘宝双11大数据分析（Hive 分析篇-下）淘宝双11大数据分析（Spark
5.8K20编辑于 2022-09-14
来自专栏腾讯大数据的专栏
天穹SuperSQL如何把腾讯 PB 级大数据计算做到秒级？
天穹SuperSQL是腾讯自研，基于统一的SQL语言模型，面向机器学习智能调优，提供虚拟化数据和开放式计算引擎的大数据智能融合平台。 Presto在腾讯天穹SuperSQL大数据生态中，定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。得益于Presto的多数据源访问能力，天穹Presto支持对接了Hive、Iceberg、MySQL等数据源，且为了更好地支持内部的业务，我们也扩展开发了内部的TDW Connnector，支持访问腾讯内部的数据仓库数据同时天穹Presto使用了Alluxio作为数据源（Hive表、Iceberg表）的缓存层，用于加速热点数据的访问，可有效提升Presto查询的效率。 3 稳定性提升 3.1 JVM调优 Presto在天穹上线运行的过程中，遇到过Worker Full GC停顿时间过长的问题，为此天穹Presto将JDK版本升级到了11（参考社区issue 14873
2.1K51编辑于 2022-01-23
来自专栏PPV课数据科学社区
大数据挖掘中易犯的11大错误
按照Elder博士的总结，这11大易犯错误包括： 0.缺乏数据(LackData) 1.太关注训练(FocusonTraining) 2.只依赖一项技术(RelyonOneTechnique) 3.提错了问题如果数据+工具就可以解决问题的话，还要人做什么呢4a.投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。给数据加上时间戳，避免被误用。 6.抛弃了不该忽略的案例(DiscountPeskyCases) IDMer：到底是“宁为鸡头，不为凤尾”，还是“大隐隐于市，小隐隐于野”? ，而是“这就有点奇怪了……” 　　数据中的不一致性有可能会是解决问题的线索，深挖下去也许可以解决一个大的业务问题。　　 (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时，原始数据集中违约客户的权重已经被提高过了) 　　解决方法：先进行数据集划分，然后再提高训练集中违约客户的权重。
71870发布于 2018-04-20
来自专栏PPV课数据科学社区
【译文】关于数据科学难以忽视的11大真相
. 9、Presentation is key - be a master of Power Point. 10、All models are false, but some are useful. 11 You need to get your hands dirty. 1、数据都是没有清洗过的。 2、你总是需要花费大量的时间准备和清洗数据。 3、 95%的任务不需要深度学习。 11、没有完全自动化的数据科学。很多你需要人工手动操作。翻译：lily PPV课原创编译转载请注明出处原文链接：http://www.ppvke.com/Answer/? 2、回复“答案”查看大数据Hadoop面试笔试题及答案 3、回复“设计”查看这是我见过最逆天的设计，令人惊叹叫绝 4、回复“可视化”查看数据可视化专题-数据可视化案例与工具 5、回复“禅师”查看当禅师遇到一位理科生知识无极限 6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布 7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载 8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募 9、
81070发布于 2018-04-20
来自专栏华章科技
干货：数据挖掘中易犯的11大错误
11大易犯错误——Elder博士 0. 缺乏数据（Lack Data） 1. 太关注训练（Focus on Training） 2. 如果数据＋工具就可以解决问题的话，还要人做什么呢？ 4a.投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。给数据加上时间戳，避免被误用。 6. 抛弃了不该忽略的案例（Discount Pesky Cases） IDMer：到底是“宁为鸡头，不为凤尾”，还是“大隐隐于市，小隐隐于野”？，而是“这就有点奇怪了……” 数据中的不一致性有可能会是解决问题的线索，深挖下去也许可以解决一个大的业务问题。（问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时，原始数据集中违约客户的权重已经被提高过了）解决方法：先进行数据集划分，然后再提高训练集中违约客户的权重。 10.
29220发布于 2018-08-13
来自专栏腾讯技术工程官方号的专栏
腾讯 PB 级大数据计算如何做到秒级？
天穹 SuperSQL 是腾讯自研，基于统一的 SQL 语言模型，面向机器学习智能调优，提供虚拟化数据和开放式计算引擎的大数据智能融合平台。 Presto 在腾讯天穹 SuperSQL 大数据生态中，定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。同时天穹 Presto 使用了 Alluxio 作为数据源（Hive 表、Iceberg 表）的缓存层，用于加速热点数据的访问，可有效提升 Presto 查询的效率。 2.3 Iceberg Connector 功能增强腾讯天穹实时数仓-数据湖分析系统 DLA 使用了 Iceberg 作为表的数据组织格式，用户数据入湖后，可以通过 Presto Iceberg Connector 3 稳定性提升 3.1 JVM 调优 Presto 在天穹上线运行的过程中，遇到过 Worker Full GC 停顿时间过长的问题，为此天穹 Presto 将 JDK 版本升级到了 11（参考社区 issue
2.1K21编辑于 2022-01-21
来自专栏灯塔大数据
必看：大数据挖掘中易犯的11大错误
4 只靠数据来说话(Listen(only)totheData) IDMer：“让数据说话”没有错，关键是还要记得另一句话：兼听则明，偏听则暗！如果数据+工具就可以解决问题的话，还要人做什么呢？ 4a.投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。 4b.经过设计的实验：某些实验设计中掺杂了人为的成分，这样的实验结果也常不可信。给数据加上时间戳，避免被误用。 6 抛弃了不该忽略的案例(DiscountPeskyCases) IDMer：到底是“宁为鸡头，不为凤尾”，还是“大隐隐于市，小隐隐于野”？，而是“这就有点奇怪了……” 数据中的不一致性有可能会是解决问题的线索，深挖下去也许可以解决一个大的业务问题。 (问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时，原始数据集中违约客户的权重已经被提高过了) 解决方法：先进行数据集划分，然后再提高训练集中违约客户的权重。
67370发布于 2018-04-09
来自专栏PPV课数据科学社区
世界杯11大数据:20位前冠军出战
随着全部32支参赛队的23人名单基本敲定，国际足联官方列出本届杯赛的11大数据，本届杯赛共有236人参加过世界杯，包括20位前冠军，最年轻及最年长的球队分别是加纳和阿根廷，所有球员的平均年龄为岁零1个月，是本届杯赛最年轻的球员，也有望成为世界杯历史第9年轻的球员，但即便是喀麦隆历史，也有3名球员出征世界杯时比他年轻，分别是埃托奥（17岁零3个月）、奥莱姆贝（17岁零6个月）以及宋（17岁零11
74460发布于 2018-04-19
来自专栏数据饕餮
数据仓库专题（7）-维度建模11大基本原则
遵循这些原则进行维度建模可以保证数据粒度合理，模型灵活，能够适应未来的信息资源，违反这些原则你将会把用户弄糊涂，并且会遇到数据仓库障碍。本文适用于多维建模，不使用于3NF建模。用户想要掩盖哪些数据，想要显示哪些数据，如果只有汇总数据，那么你已经设定了数据的使用模式，当用户想要深入挖掘数据时他们就会遇到障碍。当然，原子数据也可以通过概要维度建模进行补充，但企业用户无法只在汇总数据上工作，他们需要原始数据回答不断变化的问题。原则9、创建一致的维度集成整个企业的数据　　对于企业数据仓库一致的维度，是最基本的原则，在ETL系统中管理一次，然后在所有事实表中都可以重用，一致的维度在整个维度模型中可以获得一致的描述属性，可以支持从多个业务流程中整合数据原则11、基于OLAP分析各操作进行维度设计指导从结果反思设计过程，基于OLAP钻取、上钻、下钻、切片、切块的业务需求，设计你的维度模型。三、未完待续
2.2K30发布于 2019-01-14
来自专栏随手写个文章
【天穹OS】虚拟表：支持极速查询的下一代湖仓一体新范式
当今已存在的许多湖仓一体的产品，他们都是非常优秀的架构和技术，下面着重说明一下两大主流湖仓一体方向：基于数据湖的湖仓一体架构，以DeltaLake为代表 [1]如图2，DataLake 作为中央数据湖，前些年基于维度建模、解决数据孤岛的中央数据仓库大热，所有的数据都在往里灌，存储了海量（ZB）的数据；但是现在业界许多公司的中央数据仓库落后主流技术一两代，在需要迭代升级、降本提效的时候却面临而迁移不动的尴尬当前小马BI 已支持配置SuperSQL（天穹大数据数据仓库统一入口）作为数据源来对接TDW的表数据，用户就无需将天穹数据仓库的表数据进行预处理后导入StarRocks、Mysql等数据（仓）库中。支持的场景4: 天穹数据仓库升级天穹数据仓库在这么多年以来支持公司内各个BG的业务，取得了非常好的业务成果。虚拟表短期想达到的目标：支持天穹数据仓库极速查询场景一条 SQL 查询天穹数据仓库所有数据，无数据孤岛、体验一体化根据用户指定的成本提供查询体验（速度、稳定性、一致性等）天穹数据仓库无痛升级参考[1]
2.4K212编辑于 2023-10-31
来自专栏数据猿
【AI大模型展】思必驰DFM大模型——具有通用智能、针对垂域的行业语言大模型
思必驰DFM大模型该AI大模型由思必驰投递并参与数智猿×数据猿×上海大数据联盟共同推出的《2025中国数智产业AI大模型先锋企业》榜单/奖项评选。大数据产业创新服务媒体 ——聚焦数据 · 改变商业思必驰自研的对话式语言大模型DFM（Dialogue Foundation Model），中文直译为“通用对话基础模型”，具备通用语言计算大模型的所有具体来看，思必驰可为客户提供数据工程、基底模型、训练平台、提示词工程等一系列大模型所需的技术工程资源，并结合客户的高端智算算力、专有场景数据，实现垂直领域的大模型大规模可定制能力，赋能智能汽车、智能家居技术说明在规模量级上，思必驰DFM大模型是百亿量级的行业语言大模型，在一些公开数据集的国际测试中，在同等规模的百亿级大模型中，DFM性能明显处于领先优势。点击文末“阅读原文”链接还可查看思必驰DFM大模型官网 ★以上由思必驰投递申报的项目案例，最终将会角逐由数智猿×数据猿×上海大数据联盟联合推出的《2025中国数智产业AI大模型先锋企业》榜单/奖项。
55010编辑于 2025-10-21
来自专栏CDA数据分析师
数据挖掘过程中绝不能犯这11大错误
只靠数据来说话（Listen (only) to the Data）　　IDMer：“让数据说话”没有错，关键是还要记得另一句话：兼听则明，偏听则暗！如果数据＋工具就可以解决问题的话，还要人做什么呢？　　投机取巧的数据：数据本身只能帮助分析人员找到什么是显著的结果，但它并不能告诉你结果是对还是错。　　给数据加上时间戳，避免被误用。 7. 抛弃了不该忽略的案例（Discount Pesky Cases）　　IDMer：到底是“宁为鸡头，不为凤尾”，还是“大隐隐于市，小隐隐于野”？，而是“这就有点奇怪了……” 　　数据中的不一致性有可能会是解决问题的线索，深挖下去也许可以解决一个大的业务问题。　　（问题出在数据集的划分上。在把原始数据集划分为训练集和测试集时，原始数据集中违约客户的权重已经被提高过了）解决方法：先进行数据集划分，然后再提高训练集中违约客户的权重。 11.
69060发布于 2018-02-08
来自专栏深度学习与python
天穹SuperSQL：腾讯下一代大数据自适应计算引擎 | 文末送书
SuperSQL 作为腾讯大数据智能计算平台的入口和决策中心，整合不同的大数据系统组件，旨在解决传统大数据架构下的痛点和难点问题，诸如大数据的语言门槛高、大数据引擎多而杂、大数据计算链路长而复杂、资源利用率低数据编排层适配不同异构存储，透明化存储差异，解耦计算和存储。自主学习数据访问模式，自适应缓存热点数据和元数据，加速数据访问性能，提升集群稳定性。由于特征维度大，训练数据多，模型训练慢，因此对特征进行降维。为此，天穹 Presto 做了针对性的优化，在动态的计算环境中，通过感知节点算力的变化，自适应地调整计算任务的调度，避免低算力节点的影响。天穹 Presto 自适应任务调度主要分为：Task 自适应调度与 Split 自适应调度，方案实现的核心思想是：根据节点的算力情况动态分配 Split 和 Task，整体架构如下图所示：天穹 Presto
1.6K10编辑于 2023-03-29
来自专栏代码日志
2026年03月12日 AI早报
4.19万亿Token调用量激增34.9%超越美国国内“养虾”类AI应用爆发式增长，2025年累计调用国产大模型超4.19万亿Token，同比增长34.9%，首次在活跃度上超过美国同类应用。 > 来源：鹭羽观察 ChatGPT与Claude用户重叠仅11%，中国AI应用霸榜移动端 Despite intense competition, only 11% of users overlap > 来源：36氪 ️ 追觅发布「天穹」芯片，首个太空算力盒即将发射追觅芯际推出自研「天穹」系列AI芯片，正式量产并集成于全球首个“太空算力盒”，计划近期随商业航天任务进入低轨。 > 来源：最前线昂跑拓展AI健康生态，跑鞋之后布局运动科学平台瑞士运动品牌昂跑宣布进军AI健康管理领域，计划整合生物数据与训练模型，打造个性化运动建议系统。 > 来源：The Verge Meta发布四款AI芯片，挑战英伟达与AMD在数据中心地位 Meta推出自研AI训练与推理芯片共四款，已部署于内部AI基础设施。
81910编辑于 2026-03-16
来自专栏Java项目实战
1100万大表11秒SQL优化
时间:上周六刚刚从外面回来，报出生产数据慢SQL开始优化select t.x te.xfrom o_detail tleft join p_detail teon t.A = te.A and t.B t.A = '' and t.B = ''and te.C = '' and t.D = 0group by t.B,t.C,te.X,te.id,te.Y分析执行计划因为te表未用到索引造成全表扫描大表总数据条数那就看看为什么没走索引怎么才能走索引业务能不能优化影不影响主数据？先强制走te表索引或者覆合索引效果显著但是现在在模拟生产数据后te表仍然无法走任何索引思路一：查询t表，te表，全部索引show index from tshow index from te字段索引都有为什么不走
27830编辑于 2023-06-30

第 2 页第 3 页第 4 页第 5 页第 6 页第 7 页第 8 页第 9 页第 10 页第 11 页

点击加载更多

腾讯大数据｜天穹SuperSQL执行核心剖析

直面“AI曼哈顿计划”，中国科学智能的破局之道

11月大数据面试题复习

11:大整数减法

天穹SuperSQL：腾讯下一代大数据自适应计算引擎

淘宝双11大数据分析（数据可视化）

天穹SuperSQL如何把腾讯 PB 级大数据计算做到秒级？

大数据挖掘中易犯的11大错误

【译文】关于数据科学难以忽视的11大真相

干货：数据挖掘中易犯的11大错误

腾讯 PB 级大数据计算如何做到秒级？

必看：大数据挖掘中易犯的11大错误

世界杯11大数据:20位前冠军出战

数据仓库专题（7）-维度建模11大基本原则

【天穹OS】虚拟表：支持极速查询的下一代湖仓一体新范式

【AI大模型展】思必驰DFM大模型——具有通用智能、针对垂域的行业语言大模型

数据挖掘过程中绝不能犯这11大错误

天穹SuperSQL：腾讯下一代大数据自适应计算引擎 | 文末送书

2026年03月12日 AI早报

1100万大表11秒SQL优化

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

腾讯大数据｜天穹SuperSQL执行核心剖析

直面“AI曼哈顿计划”，中国科学智能的破局之道

11月大数据面试题复习

11:大整数减法

天穹SuperSQL：腾讯下一代大数据自适应计算引擎

淘宝双11大数据分析（数据可视化）

天穹SuperSQL如何把腾讯 PB 级大数据计算做到秒级？

大数据挖掘中易犯的11大错误

【译文】关于数据科学难以忽视的11大真相

干货 ：数据挖掘中易犯的11大错误

腾讯 PB 级大数据计算如何做到秒级？

必看 ：大数据挖掘中易犯的11大错误

世界杯11大数据:20位前冠军出战

数据仓库专题（7）-维度建模11大基本原则

【天穹OS】虚拟表：支持极速查询的下一代湖仓一体新范式

【AI大模型展】思必驰DFM大模型——具有通用智能、针对垂域的行业语言大模型

数据挖掘过程中绝不能犯这11大错误

天穹SuperSQL：腾讯下一代大数据自适应计算引擎 | 文末送书

2026年03月12日 AI早报

1100万大表11秒SQL优化

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

干货：数据挖掘中易犯的11大错误

必看：大数据挖掘中易犯的11大错误