首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据计算

    数据外置提速革命:轻量级开源SPL如何用文件存储实现MPP级性能?

    传统数据库,特别是交易(TP)数据库,用于分析型计算经常会出现性能问题。TP数据库的性能优化主要是提高事务处理和写操作(增删改)的效率,这和分析型计算的优化方向并不一致,也就很难让分析计算跑的快。 常见的解决办法是把历史数据从TP数据库搬到专业OLAP数据仓库中计算。不过,OLAP数据仓库太沉重,经常需要集群,硬件成本较高,还可能有昂贵的授权费用,更重要的是,整个技术架构也变得非常复杂。 实现数据外置提速的同时,也不会让系统架构变得很复杂:轻量的SPL,计算能力却非常强大,在列式存储、数据压缩、多线程并行等方面都做了深度优化,能让条件过滤、分组汇总这些常规运算的性能大幅提升,完全不输于专业的 SPL常规计算与MYSQL对比(单位:秒)注:测试环境和方法参见  《如何用esProc将数据库表转储提速查询》SPL代码也很简单,比如大订单表的过滤和分组汇总:专业OLAP数据仓库利用列存压缩等技术能让常规运算中跑出较高性能 同时,SPL代码仍很简单:6月6日有现场讲解用SPL实现外置提速的免费培训:课程涉及的实例都是传统数据库很头疼的老大难问题,比如COUNT DISTINCT,外键JOIN,大主子表关联(包括EXISTS

    23910编辑于 2025-05-23
  • 来自专栏星汉技术

    Hive应用:数据外置内部表 原

    示例 先创建HDFS目录/data/person,将数据文件上传到此目录之下。 0 6.0 刘备 40.0 男 成都 0 7.0 小李 29.0 男 江南 0 Time taken: 0.141 seconds, Fetched: 7 row(s) hive> 此时就创建了一个数据外置的内部表 ,这个表也允许先有数据,上面展示的数据,就是证明了这一点,完美展示了数据外置的内部表。 然而如果删除Hive中的这个表的话,数据也会跟着被删除。 下图是数据存放的目录: ? 在看一下test数据库目录: ? 没有person表的目录。 总结 所以综上所述,这种内部表有普通外部表的先有数据的特性,还具有普通内部表删除表数据也同时删除的特性。那么如果这个表也是内部表的话,那么内部表和外部表的区别在哪里?

    60320发布于 2019-03-13
  • 来自专栏鳄鱼儿的技术分享

    Docker 安装 Redis 并外置数据文件

    前言 Redis是一个开源的内存型数据库,也被称为数据结构服务器nosql。它是一种高性能、非关系型数据库,通常用于缓存和快速存储键值对数据,也可以支持多种复杂的数据结构。 将配置文件和数据文件映射到外部 创建存放redis数据的文件夹 mkdir -p ~/i/apps/redis/{conf,data} 下载配置文件 下载redis配置文件,这里是redis的默认配置 该参数后data映射是将主机上的数据目录 ~/i/apps/redis/data 映射到容器内部的 /data 目录。这样可以将 Redis 数据持久化到主机文件系统,即数据在容器销毁后仍可以保留。 name myredis redis redis-server /usr/local/etc/redis/redis.conf 脚本启动 为了方便启动redis,这里我写了一个启动脚本,该脚本仅映射了数据文件的

    54810编辑于 2024-05-21
  • 来自专栏程序员的知识天地

    3行代码让Python数据处理脚本获得4提速

    得益于Python的 concurrent.futures 模块,我们只需3行代码,就能将一个普通数据处理脚本变为能并行处理数据的脚本,提速4倍。 试试创建多进程 下面是一种可以让我们并行处理数据的方法: 1.将JPEG文件划分为4小块。 2.运行Python解释器的4个单独实例。 3.让每个Python实例处理这4数据中的一块。 比原来的版本提速4倍!之所以能更快的处理数据,是因为我们使用了4个CPU而不是1个。 但是如果你仔细看看,会发现“用户”时间几乎为9秒。那为何程序处理时间为2.2秒,但不知怎么搞得运行时间还是9秒? 如果你要处理非常大的数据集,这里有篇设置将数据集切分成多少小块的文章,可以读读,会对你帮助甚大. 这种方法总能帮我的数据处理脚本提速吗? 如果你有一列数据,并且每个数据都能单独处理时,使用我们这里所说的Process Pools是一个提速的好方法。下面是一些适合使用并行处理的例子: 从一系列单独的网页服务器日志里抓取统计数据

    1.1K40发布于 2018-12-06
  • 来自专栏JadePeng的技术博客

    jenkins X实践系列(4) —— jenkins X 构建提速

    最近调研了JX,这里为第4篇,介绍如何加入jx构建和部署。 builder镜像下载慢 先在一台机器上下载好,然后放到本地仓库,到jenkins的setting里,修改镜像地址 ? cnpm镜像 1 FROM jenkinsxio/builder-nodejs:0.1.215 2 MAINTAINER jadepeng <jqpeng@iflytek.com> 3 4

    1.4K20发布于 2019-05-25
  • 众安保险 CDP 平台:借助 Apache Doris 打破数据孤岛,人群圈选提速4

    利用 Flink 进行实时数据采集,同时建设离线数仓以整合多渠道数据,确保高质量的数据资产沉淀。用户数据融合:通过 ID Mapping 技术,可将现有的用户数据进行融合,打破数据孤岛。 全域数据接入之后,这些数据就可以搭建用户数据中心、实时事件中心、客群画像以及营销流程。用户数据中心是客群画像的基石,并与客群画像、实时事件中心一同支撑营销流程的数据需求。 架构 1.0:多个技术栈,形成数据孤岛CDP 平台架构 1.0 如上图所示,离线数据和实时数据的处理流程如下:离线数据:通过 ETL 方式集成各业务线的数据数据,包括行为埋点数据、日志数据等,并将这些数据抽取数仓 当所有数据连续匹配满 5 次后,就以最终 Rank 值为准进行用户分组,从而得用户唯一标识 OneID。结合上图以及构建流程,可以得出结论: 1 - 4 行是用户 1,5 - 6 行是用户 2。 40%在建表时调整表属性:enable_unique_key_merge_on_write = truestore_row_column = truelight_schema_change = true4.

    1.6K01编辑于 2024-03-18
  • 来自专栏python小白到大牛

    有轻功:用3行代码让Python数据处理脚本获得4提速

    得益于Python的 concurrent.futures 模块,我们只需3行代码,就能将一个普通数据处理脚本变为能并行处理数据的脚本,提速4倍。 试试创建多进程 下面是一种可以让我们并行处理数据的方法: 1.将JPEG文件划分为4小块。 2.运行Python解释器的4个单独实例。 3.让每个Python实例处理这4数据中的一块。 这里是经过这三步改动后的程序代码: 我们来运行一下这段脚本,看看它是否以更快的速度完成数据处理: 脚本在2.2秒就处理完了数据!比原来的版本提速4倍! 如果你要处理非常大的数据集,这里有篇设置将数据集切分成多少小块的文章,可以读读,会对你帮助甚大. 这种方法总能帮我的数据处理脚本提速吗? 如果你有一列数据,并且每个数据都能单独处理时,使用我们这里所说的Process Pools是一个提速的好方法。下面是一些适合使用并行处理的例子: 从一系列单独的网页服务器日志里抓取统计数据

    1.2K30发布于 2018-07-26
  • 来自专栏Crossin的编程教室

    4提速神技让你代码快到飞起!

    尤其是在处理一些大量计算或者跑数据的时候,看着控制台半天不跳下一个进度条,恨不得进去推它一把。 其实,很多时候并不是 Python 不行,而是我们使用的“姿势”不对。 今天 Crossin 就来跟大家分享 4 个实战中非常管用的提速技巧,直接上代码! 1. }s") 运行结果: 原生循环耗时:1.82s NumPy 向量化耗时:0.12s 千万级数据下,NumPy 比原生列表循环快了15倍。 as pool: pool.map(task, [10**7] * 4) print(f"4进程并行执行: {time.time() - start:.2f}s") 运行结果: 单进程顺序执行 : 3.98s 4进程并行执行: 1.23s 千万级数据下,4进程并行比单进程快了3倍多。

    15810编辑于 2026-04-02
  • 来自专栏大数据在线

    释放数据潜力,HCSF为AI应用提速

    “五年前,我们很多行业客户的数据还是以ERP、CRM等数据为主,10TB就属于很大的数据量;今天,这些客户积累的数据量通常达到PB级,像行为数据等非结构化数据增长极为迅速,业务形态也发生了巨大变化,基于海量数据的 02 数据不该成为AI拦路虎 在了解AI应用带来的数据挑战之前,我们需要清楚AI应用场景会产生什么样的数据、这些数据具有什么特点、AI应用对于数据存储都会有哪些要求。 具体到AI应用的环境,首先数据需要进行准备和清洗,将原始数据去重、去除格式错误、去除错误数据和启发式回填,将数据转换为机器学习模型所需要的格式,这个处理阶段通常具有典型I/O极其密集的特征,需要数据缓存基础设施实时执行 03 HCSF:为AI应用提速 事实上,如果仔细分析AI应用涉及到的数据采集、整合、传输、存储、管理和应用,会发现当前很多企业往往是通过选择不同架构的数据存储产品来满足需求,造成在性能、可扩展性和易用性之间妥协 其次,Hitachi Content Software for File为整个数据管理提供单一平台,实现了基于元数据数据管理自动化和智能化,实现跨越边缘、核心和云的数据管理,消除数据孤岛和多副本情况,

    65740发布于 2021-10-13
  • 来自专栏应用计算

    SPL轻量级文件存储提速查询实践

    传统交易(TP)数据库不擅长分析计算,而专业 OLAP 数据库又过于沉重,经常需要集群,不仅成本高昂,也会使系统架构变得更复杂。 esProc SPL 很轻,直接嵌入应用就可以运行,在实现数据外置提速的同时,也不会让整个系统架构变得很复杂:这里准备了一套使用 SPL 外置数据提速查询的实践方法:第一篇 - 常规过滤及分组汇总第二篇 乾学院有例子数据 csv 文件和建表 SQL,模拟某公司线下订单和电子商务的部分数据。需要在 MYSQL 数据库中建表,并导入 csv 数据。 customer,存储线下客户数据数据量较小:城市表 city,存储线下客户所在城市数据数据量较小:州表 state,存储线下客户所在州数据数据量较小:运货商表 shipper,存储线下运货商数据 在 IDE 中新建脚本,编写 SPL 语句,连接数据库,通过 SQL 加载 orders 表的数据

    23510编辑于 2025-08-26
  • L4级自动驾驶提速,制造链可以提前做哪些升级?

    该系统可助力企业开发并部署L4级辅助驾驶与自动驾驶功能,在预设区域或条件下实现完全无人驾驶,无需人工干预。这一动向标志着高阶自动驾驶正从技术验证迈向规模化落地。 然而,L4级系统对车辆的可靠性要求远非传统汽车可比——在取消人工干预的前提下,每一个传感器、每一个控制单元、每一个连接点都必须做到万无一失。这就对制造链的各个环节提出了前所未有的精密要求。 芯片端L4级自动驾驶依赖强大的计算平台,DRIVE AGX Thor等高性能芯片需要在严苛的车规环境下长期稳定运行。在芯片封装环节,引线框架与塑封料的结合质量直接影响封装可靠性。 传感器端L4级自动驾驶依赖摄像头、激光雷达、毫米波雷达等多传感器融合。这些传感器的光学部件——镜头、滤光片、激光雷达窗口、雷达天线罩——对表面洁净度有着极致要求。 未来展望L4级自动驾驶的商业化落地,不仅需要算法的突破,更需要制造链每一个环节的可靠性保障。

    12210编辑于 2026-03-20
  • 来自专栏Python数据科学

    经验 | 3行代码数据预处理提速6倍!

    它易于使用,并拥有许多很棒的库,可以轻松地处理数据。但是当我们需要处理大量数据时,事情就变得棘手了...... “大数据”这个词通常指的是数据集,一个数据集里的数据点如果没有数百万个,也有数十万。 当你使用4核( Intel i5)或6核( Intel i7)时,就更浪费了。 但幸运的是,内置的Python库中有一些隐藏的功能,可以让我们充分利用所有CPU内核! 但是如果有4个人,我们会将整桶钉子平均分成4堆,然后每个人处理自己的一堆钉子。这样,只需250秒即可完成任务! 在这个包含1000张图像的任务中,也可以这样处理: 将jpg文件列表分为4个较小的组。 运行Python解释器的4个独立实例。 让每个Python实例处理4个较小数据组中的一个。 结合4个过程的结果,得到最终的结果列表。 这里最重要的部分是Python为我们处理了所有艰苦的工作。 是否总能大幅加速 当你有要处理的数据列表并且要对每个数据点执行类似的计算时,使用Python并行池是一个很好的解决方案。但是,它并不总是完美的。并行池处理的数据不会以任何可预测的顺序处理。

    69550发布于 2018-12-25
  • 来自专栏量子位

    Pandas循环提速7万多倍!Python数据分析攻略

    乾明 编译整理 量子位 报道 | 公众号 QbitAI 用Python和Pandas进行数据分析,很快就会用到循环。 但在这其中,就算是较小的DataFrame,使用标准循环也比较耗时。 他是一位来自德国的数据分析师,名叫Benedikt Droste。 他说,当自己花了大半个小时等待代码执行的时候,决定寻找速度更快的替代方案。 我们一起来看看~ 标准循环处理3年足球赛数据:20.7秒 DataFrame是具有行和列的Pandas对象。如果使用循环,需要遍历整个对象。 Python不能利用任何内置函数,而且速度很慢。 他说,如果你使用Python、Pandas和Numpy进行数据分析,总会有改进代码的空间。 在对上述五种方法进行比较之后,哪个更快一目了然: ? 原文链接: https://towardsdatascience.com/how-to-make-your-pandas-loop-71-803-times-faster-805030df4f06 —

    2.4K30发布于 2019-09-02
  • 来自专栏机器之心

    采样提速256倍,蒸馏扩散模型生成图像质量媲美教师模型,只需4

    论文地址:https://arxiv.org/pdf/2210.03142.pdf 研究者在 ImageNet 64x64 和 CIFAR-10 上进行了实验,结果表明提出的蒸馏模型只需 4 步就能生成在视觉上与教师模型媲美的样本 他们探索了指导权重的不同范围,并观察到所有范围都具有可比性,因此实验采用 [w_min, w_max] = [0, 4]。 本文还探讨了如何修改指导强度 w 以影响性能,如下图 4 所示。 © THE END  转载请联系本公众号获得授权 投稿或寻求报道:content@jiqizhixin.com

    1.1K30编辑于 2022-10-11
  • 来自专栏机器学习算法与Python学习

    经验 | 3行代码数据预处理提速6倍!

    它易于使用,并拥有许多很棒的库,可以轻松地处理数据。但是当我们需要处理大量数据时,事情就变得棘手了...... “大数据”这个词通常指的是数据集,一个数据集里的数据点如果没有数百万个,也有数十万。 当你使用4核( Intel i5)或6核( Intel i7)时,就更浪费了。 但幸运的是,内置的Python库中有一些隐藏的功能,可以让我们充分利用所有CPU内核! 但是如果有4个人,我们会将整桶钉子平均分成4堆,然后每个人处理自己的一堆钉子。这样,只需250秒即可完成任务! 在这个包含1000张图像的任务中,也可以这样处理: 将jpg文件列表分为4个较小的组。 运行Python解释器的4个独立实例。 让每个Python实例处理4个较小数据组中的一个。 结合4个过程的结果,得到最终的结果列表。 这里最重要的部分是Python为我们处理了所有艰苦的工作。 是否总能大幅加速 当你有要处理的数据列表并且要对每个数据点执行类似的计算时,使用Python并行池是一个很好的解决方案。但是,它并不总是完美的。并行池处理的数据不会以任何可预测的顺序处理。

    57630发布于 2018-12-25
  • 来自专栏Java后端技术栈cwnait

    MySQL 数据库的提速器-写缓存(Change Buffer)

    写缓存(Change Buffer) 是一种特殊的数据结构,用于在对数据变更时,如果数据所在的数据页没有在 buffer pool 中的话,在不影响数据一致性的前提下,InnoDB 引擎会将对数据的操作缓存在 触发写缓存(Change Buffer)持久化操作有以下几种情况: 1、数据库空闲时,后台有线程定时持久化 2、数据库缓冲池不够用时 3、数据库正常关闭时 4、redo log 写满时 再单独看看 Change 图中详细的描述了 Change Buffer 的功能,Change Buffer 中的数据最终还是会刷回到数据所在的原始数据页中,Change Buffer 数据应用到原始数据页,得到新的数据页的过程称之为 3、将上述两个动作记入 redo log 中(图中 3 和 4)。 4、后台线程会定时将 page1 和 Change Buffer 中的数据持久化 主要地方在于步骤二,这就是写缓存(Change Buffer)提高性能的地方,虽然 page2 并没有在内存中,但是并没有妨碍我们往数据

    3.8K20发布于 2020-03-11
  • 来自专栏智能相对论

    Graviti获PreA轮融资,AI数据平台公司发展再提速

    此轮融资后,Graviti发展再提速数据是这个时代的新能源 非结构化数据例如视频,图像等占九成企业全部数据量的55%以上。正如原油需要被提炼后才能用于制造产品,非结构化数据数据也需要通过对相应特征进行提取标注,才能直接用于模型训练。 Graviti希望实现从项目、人员到数据全面自动化管理,通过提供更加高效、透明的管理以及输出高质量数据的服务,进而加速数据在供需方之间的流通,为人工智能行业赋能。 对于小型且已经工作量饱和的数据团队而言,研究算法模型才是真正有意义的工作。在数据标注预算有限的前提下,数据标注需求如果不能有效及时的解决,将对AI应用的开发持续带来影响。 不仅仅只是数据标注 当下,相关领域公司发展迅速,多名应用层巨头崛起,对于数据数据服务的需求旺盛;广泛的发展前景及强劲的可拓展性,使得与Graviti可以更好的服务应用层AI企业。

    63010发布于 2019-12-12
  • 《前端开发者必看:IndexedDB海量数据查询提速秘籍》

    例如,在一个包含大量用户信息的数据库中,若要查找特定用户,通过为用户ID建立索引,就能快速定位到该用户的数据记录,而非逐行遍历整个数据集。但当数据量庞大时,索引的维护和查询效率会受到严峻考验。 对于查询操作,尽量使用只读事务,因为只读事务不会修改数据数据库无需进行复杂的一致性检查和锁机制管理,能显著提高查询性能。例如在展示商品列表的页面,数据只需读取展示,使用只读事务可以更快地获取数据。 当查询特定时间段或类型的图片时,只需在相应的分片数据中查找,减少查询范围,提高查询速度。规范化数据结构能减少数据冗余,确保数据一致性,但在查询时可能需要进行多表关联,增加查询复杂度。 对于IndexedDB中的数据,将常用数据缓存到Service Worker中,即使在离线状态下,用户也能快速获取数据,同时减轻IndexedDB的查询压力。 随着数据的不断增删改,IndexedDB数据库可能会产生碎片,影响查询性能。定期进行碎片整理,类似于整理杂乱的文件柜,可重新组织数据存储结构,提高数据访问效率。

    32810编辑于 2025-07-04
  • 来自专栏数据和云

    SQL查询提速秘诀,避免锁死数据库的数据库代码

    不要盲目地重用代码 这个问题也很常见,我们很容易拷贝别人编写的代码,因为你知道它能获取所需的数据。 问题是,它常常获取过多你不需要的数据,而开发人员很少精简,因此到头来是一大堆数据。 不要查询两次(double-dip) 这是我看到好多人犯的另一个错误:写入存储过程,从一个有数亿行的表中提取数据。 开发人员想提取住在加利福尼亚州,年收入高于 4 万美元的客户信息。 然后再来查询年收入高于 4 万美元的客户,把那些结果放到另一个临时表中。最后他连接这两个表,获得最终结果。 你是在逗我吧?这应该用一次查询来完成,相反你对一个超大表查询两次。 在你的数据变得太大之前做正确的事情。调优数据库永不嫌早。 实际上,我只是在我的其中一个生产数据库上运行这个例子,针对一个有 2.7 亿行的表。 最后,我意识到这个查询违反了第 4 条规则:不要查询两次,但这也表明没有硬性规则。虽然我们在这里查询两次,但这么做是为了避免开销很大的表扫描。

    2K30发布于 2018-07-27
  • 来自专栏应用计算

    第五篇 - 大主子表关联时的 EXISTS--SPL轻量级文件存储提速查询实践

    这样的计算本质上是在做主键关联,如果能预先将主子表都按照主键有序存储,也可以使用有序归并算法有效提速。esProc SPL 可以把主子表的 EXISTS 转化为有序归并,从而提升计算性能。 下面通过订单表和订单明细表的例子,介绍这种情况的外置提速方法。先完成数据准备,可以直接使用第四篇生成的 CTX 文件。例 5.1 对包含 7 号产品的订单,按照客户号分组统计订单个数。 ctx").open().cursor(order_id;product_id==7;A2)4=A3.group@1(order_id)5=joinx(A2:o,order_id;A4:d,order_id open().cursor(order_id,product_id;;A2)4=A3.group(order_id)5=A4.select(~.count(order_id)>1 && ! 2、思考:在自己熟悉的数据库中有没有大主子表关联计算 EXISTS?是否可以用有序归并方法提速

    11010编辑于 2025-10-30
领券