首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏腾讯大数据的专栏

    腾讯大数据天穹SuperSQL执行核心剖析

    “随着大数据技术的蓬勃发展,在大数据平台构建过程中也面临着很多挑战和困扰” 1. 数据孤岛:由于历史原因以及不同数据中心的业务差异性,众多异构数据源形成了数据孤岛,导致大量且繁重的人工数据搬迁。 与此同时,由于不同国家的数据安全法限制,很多数据无法搬迁,数据安全和查询效率都难以保证 2. SuperSQL是腾讯自研的统一数据自适应计算平台,以自适应作为串联,整合了不同的大数据组件。通过开放融合的架构,实现一套系统解决公有云、私有云、内网的大数据痛点问题。 腾讯天穹Presto实现了动态Catalog加载功能,允许在单一SQL中指定多个数据源Catalog,以实现跨源计算。 在天穹体系下,SuperSQL基于Data Fabric技术理念,设计出虚拟表方案实现湖仓一体。 虚拟表的本质是虚拟化,通过Schema虚拟化和数据虚拟化实现湖仓一体的融合。

    2.4K51编辑于 2024-04-28
  • 来自专栏大数据文摘

    2016数据发展7趋势

    因此,高级管理人员正在寻找其人力资源的确切数据,所以,2016年我们会看到人力资源分析将迈出一步。 人力资源分析虽然是人事部门新的业务领域,但为了更好地提高人力资源的投资回报率,该业务增长极为迅速。 对于那些的商业组织而言,大数据已经成为通用语言。在适应新趋势方面,政府是缓慢的,但是在2016年,我们会看到更多的国家、地区和地方政府会采用大数据技术来提高社会和公民的体验。 7.智能机器带来的雾分析(Fog Analytic s)起步 ? 雾计算正在迅速地获得大量动力。雾计算是指推进连接到物联网的终端设备和存储数据的云计算之间的存储、传输和计算。 原文链接:https://datafloq.com/read/7-big-data-trends-for-2016/1699? utm_source=Datafloq%20newsletter&utm_campaign=41776c079a-Datafloq_newsletter_12_7_2015&utm_medium=email

    1.2K60发布于 2018-05-22
  • 来自专栏华章科技

    数据7最奇特应用

    在客户体验与库存管理流程方面,大数据通常会发挥重要作用。下面盘点了7个最有趣、最独特的大数据应用,以及它们可能对我们的生活产生的影响。 1.大数据广告牌 户外营销公司Route正使用大数据在广告牌、长椅以及公交车两侧的广告空间上设定定价模式。 5.大数据天气预报 从手机到交通地图,很多应用长期以来就需要数据支持。名为WeatherSignal的应用可以利用Android手机中的传感器,提供实时的天气数据7.大数据胸罩 True&Co网站正利用大数据帮助女性寻找号码更合适的胸罩。统计数据显示,大多数女性都戴错了胸罩的号码,为此这家网站试图帮助解决这个问 题。 该公司的内部品牌甚至会基于用户的反馈和公司收集到的数据 开发和设计新式胸罩。 利用大数据的可能性是无穷无尽的,我们可能需要时间去寻找大数据的更多应用方式。你最近看到有趣或不同寻常的大数据项目吗?

    94410发布于 2018-08-13
  • 来自专栏数据分析师小熊

    数据分析7能力:梳理数据需求

    顾名思义,数据需求,就是业务部门对数据分析产出的需求。有小伙会说:这还有需求呀,我们公司都是一通电话:“歪!给我个XX数据,快!”就完事了,根本不存在啥需求。 确实有这种无脑公司。 不过,这么无脑催数据的结果,就是返工。最常见的局面,就是你辛辛苦苦跑出来数,对面的一通质疑:“数据不对吧!”“为啥和我知道的不一样!”“你再给我个XX数据看看?”“加个字段吧!” Who:数据使用者 When:数据使用时间 Where:数据使用场合 Why:使用数据原因 What:具体数据格式 三、who:谁使用数据 包括: 申请人:部门,姓名 审批人:领导签名、邮件回复 加上审批人 ,可以在一堆需求塞车的时候,按领导等级高低排序给数。 不主动问数据用在哪里,结果业务拿着数据乱捅一波,捅完了就说:“诶呀,我们又不懂,都是数据提供的你去问他”……数据自然百口莫辩,死无全尸……所以不要吝啬语言,问清楚! 六、why:为什么需要数据

    1.3K21编辑于 2022-04-22
  • 来自专栏云计算D1net

    7云计算数据仓库

    云计算数据仓库通常包括一个或多个指向数据库集合的指针,在这些集合中收集生产数据。云计算数据仓库的第二个核心元素是某种形式的集成查询引擎,使用户能够搜索和分析数据。这有助于数据挖掘。 •BigQuery中的逻辑数据仓库功能使用户可以与其他数据源(包括数据库甚至电子表格)连接以分析数据。 关键价值/差异: •微软公司在2019年7月发布了Azure SQL数据仓库的主要更新,其中包括Gen2更新,提供了更多的SQL Server功能和高级安全选项。 •对于现有的SAP用户,与其他SAP应用程序的集成意味着可以更轻松地访问本地以及云计算数据集。 (7)Snowflake 对潜在买家的价值主张。 7个顶级云计算数据仓库对比图表 ? (来源:企业网D1Net)

    7.5K30发布于 2019-09-26
  • 来自专栏PPV课数据科学社区

    数据专家:大数据7最奇特应用

      在客户体验与库存管理流程方面,大数据通常会发挥重要作用。近来,我盘点了7个最有趣、最独特的大数据应用,以及它们可能对我们的生活产生的影响。    1.大数据广告牌   户外营销公司Route正使用大数据在广告牌、长椅以及公交车两侧的广告空间上设定定价模式。 7.大数据胸罩   True&Co 网站正利用大数据帮助女性寻找号码更合适的胸罩。统计数据显示,大多数女性都戴错了胸罩的号码,为此这家网站试图帮助解决这个问题。 该公司的内部品牌甚至会基于用户的反馈和公司收集到的数据开发和设计新式胸罩。   利用大数据的可能性是无穷无尽的,我们可能需要时间去寻找大数据的更多应用方式。你最近看到有趣或不同寻常的大数据项目吗? 知识无极限 6、回复“啤酒”查看数据挖掘关联注明案例-啤酒喝尿布 7、回复“栋察”查看大数据栋察——大数据时代的历史机遇连载 8、回复“数据咖”查看数据咖——PPV课数据爱好者俱乐部省分会会长招募 9、

    1.2K50发布于 2018-04-20
  • 来自专栏数据科学与人工智能

    数据】金融领域7数据科学案例

    笔者邀请您,先思考: 1 金融领域有哪些典型数据问题? 2 金融领域应用那些数据科学方法? ? 近年来,数据科学和机器学习应对一系列主要金融任务的能力已成为一个特别重要的问题。 管理客户数据 对于金融公司来说,数据是最重要的资源。因此,高效的数据管理是企业成功的关键。今天,在结构和数量上存在大量的金融数据:从社交媒体活动和移动互动到市场数据和交易细节。 人工智能工具,特别是自然语言处理,数据挖掘和文本分析有助于将数据转化为智能数据治理和更好的业务解决方案,从而提高盈利能力。 我们认为,我们主要关注金融领域的7数据科学用例,但还有很多其他值得一提的。 如果您有任何进一步的想法,请在评论部分分享您的想法。 原文链接: https://medium.com/activewizards-machine-learning-company/top-7-data-science-use-cases-in-finance

    1.7K00发布于 2018-07-30
  • 来自专栏腾讯大数据的专栏

    天穹SuperSQL如何把腾讯 PB 级大数据计算做到秒级?

    天穹SuperSQL是腾讯自研,基于统一的SQL语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台。 Presto在腾讯天穹SuperSQL大数据生态中,定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。 得益于Presto的多数据源访问能力,天穹Presto支持对接了Hive、Iceberg、MySQL等数据源,且为了更好地支持内部的业务,我们也扩展开发了内部的TDW Connnector,支持访问腾讯内部的数据仓库数据 同时天穹Presto使用了Alluxio作为数据源(Hive表、Iceberg表)的缓存层,用于加速热点数据的访问,可有效提升Presto查询的效率。 2.3 Iceberg Connector功能增强 腾讯天穹实时数仓-数据湖分析系统DLA使用了Iceberg作为表的数据组织格式,用户数据入湖后,可以通过Presto Iceberg Connector

    2.1K51编辑于 2022-01-23
  • 来自专栏腾讯大数据的专栏

    天穹SuperSQL:腾讯下一代大数据自适应计算引擎

    SuperSQL作为腾讯大数据智能计算平台的入口和决策中心,整合不同的大数据系统组件,旨在解决传统大数据架构下的痛点和难点问题,诸如大数据的语言门槛高、大数据引擎多而杂、大数据计算链路长而复杂、资源利用率低 ,自适应不同架构下的数据融合计算需求,通过自动数据冷热分层,多级缓存,提升存储访问性能 场景架构自适应:适配多云混合架构,实现最优的跨集群、跨DC、跨云计算路由,打通数据链路,解决数据孤岛 融合计算平台已在天穹落地 由于特征维度,训练数据多,模型训练慢,因此对特征进行降维。 为此,天穹Presto做了针对性的优化,在动态的计算环境中,通过感知节点算力的变化,自适应地调整计算任务的调度,避免低算力节点的影响。 天穹Presto自适应任务调度主要分为:Task自适应调度与Split自适应调度,方案实现的核心思想是:根据节点的算力情况动态分配Split和Task,整体架构如下图所示:  ‍ ‍天穹Presto

    6K20编辑于 2022-08-26
  • 直面“AI曼哈顿计划”,中国科学智能的破局之道

    《意见》提出利用人工智能技术加速“从0到1”科学发现的核心引擎,通过科学模型建设、科研平台智能化升级、高质量科学数据集开放共享,提升跨模态数据处理能力,推动科研范式从线性探索转向智能驱动,助力破解基础学科重大难题 11月,美国紧随而来推出“创世纪计划”,这项被喻为“AI曼哈顿计划”的国家战略,集结全美超算资源与联邦数据,构建从假设提出、模拟计算到实验验证的全链条AI科研平台,重点攻关先进制造、生物技术、关键材料等六战略领域 从AlphaFold破解蛋白质结构预测难题,到气象模型提升预测精度,科学智能已展现出颠覆科研范式的巨大潜力,而足量且高质量的科研训练数据与算力基础设施,正是实现这一突破的首要条件。 这种技术优势正转化为实实在在的科研价值,在生物医药领域,“天穹”已推动多款药物进入临床前试验阶段,通过高精度模拟发现新的变构口袋及候选药物分子;在新材料领域,其支撑的电解液数据集成为国家新材料大数据中心门户首批入驻的 AI-Ready材料数据集,为锂电池等新材料研发注入算力动能,与此同时,3D科学计算机“天穹”的应用边界仍在持续拓展,为我国基础科学探索注入持久算力动能,为各领域科技突破提供全场景支撑。

    12910编辑于 2026-03-19
  • 来自专栏Spark学习技巧

    金融领域7数据科学案例

    涵盖了从数据管理到交易策略的各种业务方面,共同点是增强金融解决方案的巨大前景。 笔者邀请您,先思考: 1 金融领域有哪些典型数据问题? 2 金融领域应用那些数据科学方法? ? 管理客户数据 对于金融公司来说,数据是最重要的资源。因此,高效的数据管理是企业成功的关键。今天,在结构和数量上存在大量的金融数据:从社交媒体活动和移动互动到市场数据和交易细节。 人工智能工具,特别是自然语言处理,数据挖掘和文本分析有助于将数据转化为智能数据治理和更好的业务解决方案,从而提高盈利能力。 我们认为,我们主要关注金融领域的7数据科学用例,但还有很多其他值得一提的。 如果您有任何进一步的想法,请在评论部分分享您的想法。 原文链接: https://medium.com/activewizards-machine-learning-company/top-7-data-science-use-cases-in-finance

    2.7K40发布于 2018-06-22
  • 来自专栏随手写个文章

    天穹OS】虚拟表:支持极速查询的下一代湖仓一体新范式

    当今已存在的许多湖仓一体的产品,他们都是非常优秀的架构和技术,下面着重说明一下两主流湖仓一体方向:基于数据湖的湖仓一体架构,以DeltaLake为代表 [1]如图2,DataLake 作为中央数据湖, 前些年基于维度建模、解决数据孤岛的中央数据仓库热,所有的数据都在往里灌,存储了海量(ZB)的数据;但是现在业界许多公司的中央数据仓库落后主流技术一两代,在需要迭代升级、降本提效的时候却面临而迁移不动的尴尬 天穹OS-虚拟表是 Data Fabric 大数据架构虚拟化层的一种具体实现方式,以下简称虚拟表。如图7,业界有许多产品定义数据模型用于描述数据属性、关系,目前实现的虚拟表也是相似逻辑。 支持的场景4: 天穹数据仓库升级天穹数据仓库在这么多年以来支持公司内各个BG的业务,取得了非常好的业务成果。 虚拟表短期想达到的目标:支持天穹数据仓库极速查询场景一条 SQL 查询天穹数据仓库所有数据,无数据孤岛、体验一体化根据用户指定的成本提供查询体验(速度、稳定性、一致性等)天穹数据仓库无痛升级参考[1]

    2.4K212编辑于 2023-10-31
  • 来自专栏灯塔大数据

    每周学点大数据 | No.7数据规模的算法分析

    No.7期 大数据规模的算法分析 Mr. 王:这样的时间界限记为O(1),我们称之为常数时间算法,这样的算法一般来说是最快的,因为它与输入规模完全无关,不论输入规模n多么,我们都可以用一个与输入规模n无关的常数时间得出结论,相比于巨大的n来说 另外,与O记号类似,常用的记号还有Θ,Θ(g(n)) 表示函数f(n)构成的集合,存在n0,c1,c2。当n≥n0时,0≤c1g(n)≤f(n)≤c2g(n)。 它们与O记号和Ω记号类似,只是在大小关系上不包含等于。 小可:嗯,听到这里,我理解了如何进行算法的分析和几种记号表示的含义了。 Mr. 内容来源:灯塔大数据

    74240发布于 2018-04-09
  • 来自专栏数据分析师小熊

    数据分析师7能力:梳理标签体系

    上期分享了数据分析师必备能力:打标签。这次分享一个更高级能力:构造标签体系。在提升能力的顺序上,当然是先会打一个标签,再会搞整个体系了。 一、什么是标签“体系”? 说“做数据的来分析分析……”分析啥呀,连对象都没统一呢! 所以,为了保住饭碗为了有效推动业务工作,更得体系化设计了。 然后任由他们自说自话,最后:请数据分析给一个公平公正公开所有人都能接受的完美方案……这么搞,最后就是做数据的小可怜儿改了几十版,还是被某些人吐槽:不完美呀。天啊,我要打住了,再吐槽下去要歪楼了。 沟通不好,一切白费,因此下一篇我们来分享《数据分析7能力之沟通能力》敬请期待哦。

    87310编辑于 2022-04-22
  • 来自专栏博文视点Broadview

    7数据分析报告写作指南

    根据一个人对报告内容的熟悉程度来分,有7种类型,一一介绍如下: 类型一:介绍型报告 介绍型报告适用于:向不了解情况的人,做第一次汇报时使用。介绍型报告一般采用总分式结构,分若干个角度进行介绍。 因此探索型报告必须有较强的逻辑性,得解释清楚自己列举的数据与给出的结论之间有啥逻辑关系。最后的提示/建议,也是建立在坚实的数据基础上的。 (七类型选一个) 3、他是否了解我说的东西?(不了解的先做介绍) 4、他的意见是否会影响结果(特别是预测/评估报告) 这样有的放矢,就能让数据报告切中对方痛点,解答对方的疑问,减少质疑。 避免毫无意义地铺陈数据。 最常见的,比如想向领导安利一个方案,为了确保内部详细,会安排好几个模块: 1、先介绍背景(介绍型报告) 2、再介绍当前走势(监控型报告) 3、再介绍当前问题(诊断型报告) 4、再介绍计划方案(探索型报告

    78230编辑于 2023-04-04
  • 来自专栏企鹅号快讯

    2018年7预测

    也正因为是以“共享”和“分享”为基,导致信息极易泄露,数据安全得不到有效保护。 兆信股份使用慧聪私有云服务,保障客户数据安全性与稳定性,能达到银行级的安全系数。 六、大数据实际运用,个性化营销更广泛 2017年,以数据为基础、效果为导向的量化营销、目标成为主流,很多品牌凭借此“软技能”已经尝到甜头。 2018年,将会有大量早期着手大数据的企业,尤其是已经使用了兆信股份数字身份管理系统的企业,已经有了22年的数据沉淀,能够精准地进行客户画像,行为分析等,真正实现企业比消费者更懂自己,据特殊用户或用户体系提供定制化内容 所有这些海量数据,加之人工智能的处理能力,将帮助机器更好地调配人力资源。人类将成为“数字指挥员”,技术作为我们自身的延伸,将以引领我们开启更加智能的生活。

    1.2K110发布于 2018-01-08
  • 来自专栏腾讯技术工程官方号的专栏

    腾讯 PB 级大数据计算如何做到秒级?

    天穹 SuperSQL 是腾讯自研,基于统一的 SQL 语言模型,面向机器学习智能调优,提供虚拟化数据和开放式计算引擎的大数据智能融合平台。 Presto 在腾讯天穹 SuperSQL 大数据生态中,定位为实现秒级大数据计算的核心服务。主要面向即席查询、交互式分析等用户场景。 得益于 Presto 的多数据源访问能力,天穹 Presto 支持对接了 Hive、Iceberg、MySQL 等数据源,且为了更好地支持内部的业务,我们也扩展开发了内部的 TDW Connnector 同时天穹 Presto 使用了 Alluxio 作为数据源(Hive 表、Iceberg 表)的缓存层,用于加速热点数据的访问,可有效提升 Presto 查询的效率。 2.3 Iceberg Connector 功能增强 腾讯天穹实时数仓-数据湖分析系统 DLA 使用了 Iceberg 作为表的数据组织格式,用户数据入湖后,可以通过 Presto Iceberg Connector

    2.1K21编辑于 2022-01-21
  • 来自专栏数据猿

    【AI模型展】思必驰DFM模型——具有通用智能、针对垂域的行业语言模型

    思必驰DFM模型 该AI模型由思必驰投递并参与数智猿×数据猿×上海大数据联盟共同推出的《2025中国数智产业AI模型先锋企业》榜单/奖项评选。 大数据产业创新服务媒体 ——聚焦数据 · 改变商业 思必驰自研的对话式语言模型DFM(Dialogue Foundation Model),中文直译为“通用对话基础模型”,具备通用语言计算模型的所有 具体来看,思必驰可为客户提供数据工程、基底模型、训练平台、提示词工程等一系列模型所需的技术工程资源,并结合客户的高端智算算力、专有场景数据,实现垂直领域的模型大规模可定制能力,赋能智能汽车、智能家居 技术说明 在规模量级上,思必驰DFM模型是百亿量级的行业语言模型,在一些公开数据集的国际测试中,在同等规模的百亿级模型中,DFM性能明显处于领先优势。 点击文末“阅读原文”链接还可查看思必驰DFM模型官网 ★以上由思必驰投递申报的项目案例,最终将会角逐由数智猿×数据猿×上海大数据联盟联合推出的《2025中国数智产业AI模型先锋企业》榜单/奖项。

    54910编辑于 2025-10-21
  • 来自专栏帅云霓的技术小屋

    模型与AI底层技术揭秘 (7) 卡车搬运的数据

    让我们举一个例子: import tensorflow as tf import numpy as np # 使用 NumPy 生成假数据(phony data), 总共 100 个点. x_data 让我们再回到《模型与AI底层技术揭秘 (2) 人妖之间的国度》中提到的“算盘打出原子弹”的故事。实际上,这是一个典型的分布式并发计算的场景。Tensorflow也提供了分布式训练的能力。 在Tensorflow中可以指定将数据传给worker来计算。 分布式训练的流程如下图: 图中,各个GPU各自拉取训练样本和参数进行训练,计算后更新参数。 我们发现,这一计算过程中涉及到大量的数据通信: 拉取大量的样本,如海量图片等; 拉去参数数据; 将训练的参数回馈; 在自动驾驶等训练场景,集群中每天的数据通信量可达PB之巨。 NVidia为了保障分布式训练场景下,海量数据的搬运,也设计了一套IO加速体系。请看下期。

    44220编辑于 2023-10-30
  • 来自专栏数据分析师小熊

    数据分析师7技能:梳理指标体系

    有小伙伴问:除了分析方法,数据分析师还要掌握哪些技能?其中最重要的,可能就是梳理指标体系了。在招聘的时候,这是数据分析师的一项硬技能要求。 那么该如何梳理呢?今天简单分享一下。 二、为什么要梳理指标体系 常见的有2种情况: 新上线的业务,要新设监控指标 老业务,有一堆零散的指标,没有条理 这时候,就需要数据分析师主动进行梳理,搞清楚: 到底哪个指标才是关键 到底指标之间是啥逻辑关系 三、基础梳理方法 梳理指标体系,要抓四个关键: 第一:用户操作流程 第二:业务运作流程 第三:数据采集多少(得有数才行!) 考核的KPI指标,可能有审核总量,正确率,延迟率三个,因此要描述流程,可能需要一堆指标,分别描述: 整体情况:总进件量、已分配数量(审核队列中数量)、已完成数量、正确数量。 数据界新人,喜欢数据分析、数据挖掘。

    1.1K00编辑于 2022-03-09
领券