首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据计算

    数据外置提速革命:轻量级开源SPL如何用文件存储实现MPP级性能?

    常见的解决办法是把历史数据从TP数据库搬到专业OLAP数据仓库中计算。不过,OLAP数据仓库太沉重,经常需要集群,硬件成本较高,还可能有昂贵的授权费用,更重要的是,整个技术架构也变得非常复杂。 实现数据外置提速的同时,也不会让系统架构变得很复杂:轻量的SPL,计算能力却非常强大,在列式存储、数据压缩、多线程并行等方面都做了深度优化,能让条件过滤、分组汇总这些常规运算的性能大幅提升,完全不输于专业的 SPL常规计算与MYSQL对比(单位:秒)注:测试环境和方法参见  《如何用esProc将数据库表转储提速查询》SPL代码也很简单,比如大订单表的过滤和分组汇总:专业OLAP数据仓库利用列存压缩等技术能让常规运算中跑出较高性能 比如以快著称的ClickHouse数据库,在同样环境下跑国际通行的TPC-H测试题,简单的Q1和SPL的性能基本相当,但是稍复杂一些的Q2、Q3、Q7就完全不如SPL了: 同时,SPL代码仍很简单:6月6日有现场讲解用SPL实现外置提速的免费培训:课程涉及的实例都是传统数据库很头疼的老大难问题,比如COUNT DISTINCT,外键JOIN,大主子表关联(包括EXISTS

    23910编辑于 2025-05-23
  • 来自专栏星汉技术

    Hive应用:数据外置内部表 原

    0 6.0 刘备 40.0 男 成都 0 7.0 小李 29.0 男 江南 0 Time taken: 0.141 seconds, Fetched: 7 row(s) hive> 此时就创建了一个数据外置的内部表 ,这个表也允许先有数据,上面展示的数据,就是证明了这一点,完美展示了数据外置的内部表。 然而如果删除Hive中的这个表的话,数据也会跟着被删除。 下图是数据存放的目录: ? 在看一下test数据库目录: ? 没有person表的目录。 person; OK Time taken: 0.189 seconds hive> show tables; OK promo tab Time taken: 0.076 seconds, Fetched: 2 总结 所以综上所述,这种内部表有普通外部表的先有数据的特性,还具有普通内部表删除表数据也同时删除的特性。那么如果这个表也是内部表的话,那么内部表和外部表的区别在哪里?

    60320发布于 2019-03-13
  • 来自专栏鳄鱼儿的技术分享

    Docker 安装 Redis 并外置数据文件

    前言 Redis是一个开源的内存型数据库,也被称为数据结构服务器nosql。它是一种高性能、非关系型数据库,通常用于缓存和快速存储键值对数据,也可以支持多种复杂的数据结构。 注释 bind 127.0.0.1 # 2. protected-mode yes 修改成 protected-mode no # 3. 添加 requirepass yourpassword (注:不添加则可以无密码访问) # 注:步骤1和步骤的2目的是为了远程连接redis,如果只需本地访问就无需修改。 该参数后data映射是将主机上的数据目录 ~/i/apps/redis/data 映射到容器内部的 /data 目录。这样可以将 Redis 数据持久化到主机文件系统,即数据在容器销毁后仍可以保留。 docker exec -it myredis /bin/bash redis-cli set testkey 2 get testkey 到此已经完成整个redis容器的部署

    54810编辑于 2024-05-21
  • 来自专栏周拱壹卒

    iTerm2 冷启动提速

    2 258.53 129.26 20.55% 258.47 129.24 20.55% __conda_activate 3) 2 258.61 129.30 20.56% 0.08 0.04 0.01% conda 2/2 258.53 129.26 20.55% 2/2 0.06 0.03 0.00% 0.06 0.03 __conda_hashr [29] --------------- 0.03 0.03 0.00% 0.03 0.03 bashcompinit [28] 2/2 0.07 0.04 2 0.06 0.03 0.00% 0.06 0.03 __conda_activate [2] 29) 2

    1.1K10编辑于 2024-04-09
  • 来自专栏AIoT技术交流、分享

    把I2C做成稳定外置接口,量产级抗干扰电路分享

    但之前做的一个批量项目,偏要把 I2C 做成设备的外置扩展接口,用来接外部的氧传感器模块。 用两只 2N7002 N 沟道 MOS 管(Q1/Q2)做 I2C 总线的双向缓冲,这是整个电路的关键。 I2C 是双向通信,直接引 MCU 引脚的话,驱动能力一般只有几个 mA,外置后线阻、负载电容都会拉低信号质量;而且接口侧的干扰会直接耦合到 MCU 引脚。 而 2N7002 的用法很巧妙。 这里选 2N7002 是因为它便宜、导通电阻小(几十 mΩ)、开关速度能覆盖 I2C 的 100kHz/400kHz 速率,量产成本几乎可以忽略。 这个电路不算复杂,但踩过坑后定型的方案确实实用,成本低、稳定性经量产验证,有 I2C 外置接口需求的朋友可以直接参考。

    13310编辑于 2026-03-23
  • 来自专栏贾志刚-OpenCV学堂

    使用OpenCV中的universal intrinsics为算法提速 (2)

    鉴于此,本系列第2篇提前发布。希望大家过一个充实的春节。 ---- OpenCV 4.x中提供了强大的统一向量指令(universal intrinsics),使用这些指令可以方便地为算法提速。 前序文章:使用OpenCV中的universal intrinsics为算法提速 (1) 前序文章介绍了怎么编写C语言代码使用OpenCV中的universal intrinsics来加速。 现在我们来看一段测试代码hello.cpp: (代码较宽,建议横屏阅读) #include <stdio.h> #include <opencv2/opencv.hpp> #include <opencv2 如果希望支持256位(32个字节)向量计算,编译程序时需要使用选项-mavx2。目前大部分Intel/AMD CPU都支持AVX22.

    2.8K11发布于 2020-02-21
  • 来自专栏QQ大数据团队的专栏

    降本30%,提速2小时!腾讯云助力火花思维大数据引擎“换挡”升级

    在数字化浪潮中,大数据已成为企业竞争力的核心要素。对于在线教育企业而言,大数据更是其实现个性化教学、精准营销和高效运营的关键。 但伴随着火花思维的发展和数据量的急剧增长,大数据工作逐渐跟不上"节奏"。 传统的Hadoop架构在处理海量数据查询和分析时往往显得力不从心。 性能和成本问题成为制约火花思维大数据平台运行的核心挑战。  换挡升级,报表时间提前2小时 为了解决上述痛点,火花思维选择了腾讯云DLC作为新的大数据处理引擎。 Meson Spark完全兼容Apache Spark和Iceberg,相比开源版本可带来2-6倍性能提升。 一系列技术细节的创新,让火花思维换挡升级,不仅提升了任务性能,降低了运维复杂度,还为在线教育行业带来了前所未有的数据处理新体验。根据统计,2024年迁移到DLC后,核心报表产出时间提前了2小时。

    26910编辑于 2025-06-21
  • 来自专栏大数据在线

    释放数据潜力,HCSF为AI应用提速

    “五年前,我们很多行业客户的数据还是以ERP、CRM等数据为主,10TB就属于很大的数据量;今天,这些客户积累的数据量通常达到PB级,像行为数据等非结构化数据增长极为迅速,业务形态也发生了巨大变化,基于海量数据的 02 数据不该成为AI拦路虎 在了解AI应用带来的数据挑战之前,我们需要清楚AI应用场景会产生什么样的数据、这些数据具有什么特点、AI应用对于数据存储都会有哪些要求。 具体到AI应用的环境,首先数据需要进行准备和清洗,将原始数据去重、去除格式错误、去除错误数据和启发式回填,将数据转换为机器学习模型所需要的格式,这个处理阶段通常具有典型I/O极其密集的特征,需要数据缓存基础设施实时执行 03 HCSF:为AI应用提速 事实上,如果仔细分析AI应用涉及到的数据采集、整合、传输、存储、管理和应用,会发现当前很多企业往往是通过选择不同架构的数据存储产品来满足需求,造成在性能、可扩展性和易用性之间妥协 其次,Hitachi Content Software for File为整个数据管理提供单一平台,实现了基于元数据数据管理自动化和智能化,实现跨越边缘、核心和云的数据管理,消除数据孤岛和多副本情况,

    65740发布于 2021-10-13
  • 来自专栏量子位

    多花5美元提速500%,树莓派新品Zero 2 W发布

    这次树莓派推出了新的Zero 2 W,仅售15美元(不到100元)。 下图是不同产品在一些计算测试中的表现: △数据来源:Wired 虽然比不上RPi 400(约618元),但是全方位都比上一代的Zero W强了不少。 性能和功耗的折中派 总体来说,新的Zero 2 W更像是RPi Zero W和RPi 400的折中版。 参考链接: [1]https://www.wired.co.uk/article/raspberry-pi-zero-2-w-review [2]https://blog.alexellis.io/raspberry-pi-zero -2/ [3]https://news.ycombinator.com/item?

    1.2K10发布于 2021-11-05
  • 来自专栏架构师

    利用HTTP2与HTTP3 给你的网站提速!!

    for HTTP/2 - RFC7541 四、HTTP/2 新特性 1.二进制传输 HTTP/2传输数据量的大幅减少,主要有两个原因:以二进制方式传输和Header 压缩。 我们先来介绍二进制传输,HTTP/2 采用二进制格式传输数据,而非HTTP/1.x 里纯文本形式的报文 ,二进制协议解析起来更高效。 HTTP/2 将请求和响应数据分割为更小的帧,并且它们采用二进制编码。 HTP/2数据分帧后"Header+Body"的报文结构就完全消失了,协议看到的只是一个个的"碎片"。 ? HTTP/2 中,同域名下所有通信都在单个连接上完成,该连接可以承载任意数量的双向数据流。 在 HTTP/2 中,有了二进制分帧之后,HTTP /2 不再依赖 TCP 链接去实现多流并行了,在 HTTP/2中, 同域名下所有通信都在单个连接上完成。 单个连接可以承载任意数量的双向数据流。

    2K41发布于 2019-10-22
  • 来自专栏开源部署

    我是如何用2个Unix命令给SQL提速

    我将这两个表导出到文件中,使用Unix的join命令将它们连接在一起,将结果传给uniq,把重复的行移除掉,然后将结果导回到数据库。导入过程(包括重建索引)从20:41开始,到第二天的9:53结束。 将数据库表导出为文本文件 我先导出连接两个表需要用到的字段,并按照连接字段进行排序。为了确保排序顺序与Unix工具的排序顺序兼容,我将字段转换为字符类型。 2. 使用Unix命令行工具处理文件 接下来,我使用Unix的join命令来连接这两个文本文件。这个命令线性扫描两个文件,并将第一个字段相同的记录组合在一起。 将文本文件导回数据库 最后,我将文本文件导回数据库。

    1.2K20编辑于 2022-08-16
  • 来自专栏应用计算

    SPL轻量级文件存储提速查询实践

    传统交易(TP)数据库不擅长分析计算,而专业 OLAP 数据库又过于沉重,经常需要集群,不仅成本高昂,也会使系统架构变得更复杂。 esProc SPL 很轻,直接嵌入应用就可以运行,在实现数据外置提速的同时,也不会让整个系统架构变得很复杂:这里准备了一套使用 SPL 外置数据提速查询的实践方法:第一篇 - 常规过滤及分组汇总第二篇 乾学院有例子数据 csv 文件和建表 SQL,模拟某公司线下订单和电子商务的部分数据。需要在 MYSQL 数据库中建表,并导入 csv 数据。 customer,存储线下客户数据数据量较小:城市表 city,存储线下客户所在城市数据数据量较小:州表 state,存储线下客户所在州数据数据量较小:运货商表 shipper,存储线下运货商数据 SPL 代码 1:按 ctrl-F9 或单击执行按钮后,点击 A2 格,在右边可以看到 100 条数据。SPL 代码写在单元格中,可以直接用格名作为临时变量。

    23510编辑于 2025-08-26
  • 来自专栏Python数据科学

    经验 | 3行代码数据预处理提速6倍!

    它易于使用,并拥有许多很棒的库,可以轻松地处理数据。但是当我们需要处理大量数据时,事情就变得棘手了...... “大数据”这个词通常指的是数据集,一个数据集里的数据点如果没有数百万个,也有数十万。 大多数用于机器学习的计算机至少有2个CPU核心。这意味着,对于2个CPU内核的示例,在运行预处理时,50%或更多的计算机处理能力在默认情况下不会做任何事情! 这个程序遵循在数据处理脚本中经常看到的简单模式: 首先是要处理的文件(或其他数据)列表; 你可以使用for循环逐个处理每个数据片段,然后在每个循环迭代上运行预处理 让我们在一个包含1000个jpeg文件的文件夹上测试这个程序 是否总能大幅加速 当你有要处理的数据列表并且要对每个数据点执行类似的计算时,使用Python并行池是一个很好的解决方案。但是,它并不总是完美的。并行池处理的数据不会以任何可预测的顺序处理。 你处理的数据还必须是Python知道如何“pickle”的类型。幸运的是,这些类型很常见。

    69550发布于 2018-12-25
  • 来自专栏量子位

    Pandas循环提速7万多倍!Python数据分析攻略

    乾明 编译整理 量子位 报道 | 公众号 QbitAI 用Python和Pandas进行数据分析,很快就会用到循环。 但在这其中,就算是较小的DataFrame,使用标准循环也比较耗时。 他是一位来自德国的数据分析师,名叫Benedikt Droste。 他说,当自己花了大半个小时等待代码执行的时候,决定寻找速度更快的替代方案。 我们一起来看看~ 标准循环处理3年足球赛数据:20.7秒 DataFrame是具有行和列的Pandas对象。如果使用循环,需要遍历整个对象。 Python不能利用任何内置函数,而且速度很慢。 他说,如果你使用Python、Pandas和Numpy进行数据分析,总会有改进代码的空间。 在对上述五种方法进行比较之后,哪个更快一目了然: ? 2、否则,使用向量化是最好的,因为它更快!

    2.4K30发布于 2019-09-02
  • 来自专栏机器学习算法与Python学习

    经验 | 3行代码数据预处理提速6倍!

    它易于使用,并拥有许多很棒的库,可以轻松地处理数据。但是当我们需要处理大量数据时,事情就变得棘手了...... “大数据”这个词通常指的是数据集,一个数据集里的数据点如果没有数百万个,也有数十万。 大多数用于机器学习的计算机至少有2个CPU核心。这意味着,对于2个CPU内核的示例,在运行预处理时,50%或更多的计算机处理能力在默认情况下不会做任何事情! 这个程序遵循在数据处理脚本中经常看到的简单模式: 首先是要处理的文件(或其他数据)列表; 你可以使用for循环逐个处理每个数据片段,然后在每个循环迭代上运行预处理 让我们在一个包含1000个jpeg文件的文件夹上测试这个程序 是否总能大幅加速 当你有要处理的数据列表并且要对每个数据点执行类似的计算时,使用Python并行池是一个很好的解决方案。但是,它并不总是完美的。并行池处理的数据不会以任何可预测的顺序处理。 你处理的数据还必须是Python知道如何“pickle”的类型。幸运的是,这些类型很常见。

    57630发布于 2018-12-25
  • 来自专栏Java后端技术栈cwnait

    MySQL 数据库的提速器-写缓存(Change Buffer)

    触发写缓存(Change Buffer)持久化操作有以下几种情况: 1、数据库空闲时,后台有线程定时持久化 2数据库缓冲池不够用时 3、数据库正常关闭时 4、redo log 写满时 再单独看看 Change 2、系统后台定时触发 merge 操作。 3、MySQL 数据库正常关闭时。 k1 这条数据,Page 1 在内存中,所以直接更新内存,不会使用到 Change Buffer; 2、k2 对应的数据页 Page 2 没有在内存中,就在内存的 change buffer 区域,记录下 page2 中插入数据,先将数据写入到写缓存(Change Buffer)中,再后台通过 merge 操作将插入的数据写入到数据页 page22、写入一个数据后,会立刻读取它 写入一个数据后,会立刻读取它,那么即使满足了条件,将更新先记录在 change buffer,但之后由于马上要访问这个数据页,会立即触发 merge 过程。

    3.8K20发布于 2020-03-11
  • 来自专栏Apache Doris

    Apache Doris 中的 Data Trait:性能提速 2 倍的秘密武器

    数据库系统的核心层,查询优化器如同一位精明的策略家,不断分析数据特征并制定最优执行计划。 想象一下,如果你能提前知道数据的“性格特征”,是不是就能更聪明地处理它们?DataTrait正是这样一种对查询数据和中间结果的“性格描述”。 X称为决定因素(Determinant),Y称为被决定因素(Dependecy)定义如下:∀X,Y⊆R,X→Y⇔∀t1,t2∈R,t1[X]=t2[X]⇒t1[Y]=t2[Y]其中,t[X]表示元组t在属性集 FROM(SELECTemp_idc1,sum(salary)c2fromemployeesGROUPBYemp_id,emp_name)t;--优化后等效查询SELECTCOUNT(c2)FROM(SELECTemp_idc1 总结和展望DataTrait通过四大核心特征(唯一性、均匀性、等值集、函数依赖)为查询优化器提供了深度的数据认知能力:数据特征识别:精确捕捉数据的本质属性,如主键唯一性、常量列均匀性等查询语义理解:解析

    15110编辑于 2025-11-27
  • 来自专栏智能相对论

    Graviti获PreA轮融资,AI数据平台公司发展再提速

    此轮融资后,Graviti发展再提速数据是这个时代的新能源 非结构化数据例如视频,图像等占九成企业全部数据量的55%以上。正如原油需要被提炼后才能用于制造产品,非结构化数据数据也需要通过对相应特征进行提取标注,才能直接用于模型训练。 Graviti希望实现从项目、人员到数据全面自动化管理,通过提供更加高效、透明的管理以及输出高质量数据的服务,进而加速数据在供需方之间的流通,为人工智能行业赋能。 对于小型且已经工作量饱和的数据团队而言,研究算法模型才是真正有意义的工作。在数据标注预算有限的前提下,数据标注需求如果不能有效及时的解决,将对AI应用的开发持续带来影响。 不仅仅只是数据标注 当下,相关领域公司发展迅速,多名应用层巨头崛起,对于数据数据服务的需求旺盛;广泛的发展前景及强劲的可拓展性,使得与Graviti可以更好的服务应用层AI企业。

    63010发布于 2019-12-12
  • 《前端开发者必看:IndexedDB海量数据查询提速秘籍》

    例如,在一个包含大量用户信息的数据库中,若要查找特定用户,通过为用户ID建立索引,就能快速定位到该用户的数据记录,而非逐行遍历整个数据集。但当数据量庞大时,索引的维护和查询效率会受到严峻考验。 对于查询操作,尽量使用只读事务,因为只读事务不会修改数据数据库无需进行复杂的一致性检查和锁机制管理,能显著提高查询性能。例如在展示商品列表的页面,数据只需读取展示,使用只读事务可以更快地获取数据。 当查询特定时间段或类型的图片时,只需在相应的分片数据中查找,减少查询范围,提高查询速度。规范化数据结构能减少数据冗余,确保数据一致性,但在查询时可能需要进行多表关联,增加查询复杂度。 对于IndexedDB中的数据,将常用数据缓存到Service Worker中,即使在离线状态下,用户也能快速获取数据,同时减轻IndexedDB的查询压力。 随着数据的不断增删改,IndexedDB数据库可能会产生碎片,影响查询性能。定期进行碎片整理,类似于整理杂乱的文件柜,可重新组织数据存储结构,提高数据访问效率。

    32810编辑于 2025-07-04
  • 来自专栏数据和云

    SQL查询提速秘诀,避免锁死数据库的数据库代码

    无论 SQL 开发人员在 SQL Server、Oracle、DB2、Sybase、MySQL,还是在其他任何关系数据库平台上编写代码,并发性、资源管理、空间管理和运行速度都仍困扰着他们。 不要盲目地重用代码 这个问题也很常见,我们很容易拷贝别人编写的代码,因为你知道它能获取所需的数据。 问题是,它常常获取过多你不需要的数据,而开发人员很少精简,因此到头来是一大堆数据。 需要几列,就提取几列 这个问题类似第 2 个问题,但这是列所特有的。很容易用 SELECT* 来编写所有查询代码,而不是把列逐个列出来。 问题同样是,它提取过多你不需要的数据,这个错误我见过无数次了。 因此,你处理的数据比实际需要的多得多,查询返回结果是个奇迹。你不仅处理过多不需要的数据,还夺走了其他进程的资源。 在你的数据变得太大之前做正确的事情。调优数据库永不嫌早。 实际上,我只是在我的其中一个生产数据库上运行这个例子,针对一个有 2.7 亿行的表。

    2K30发布于 2018-07-27
领券