首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据计算

    数据外置提速革命:轻量级开源SPL如何用文件存储实现MPP级性能?

    实现数据外置提速的同时,也不会让系统架构变得很复杂:轻量的SPL,计算能力却非常强大,在列式存储、数据压缩、多线程并行等方面都做了深度优化,能让条件过滤、分组汇总这些常规运算的性能大幅提升,完全不输于专业的 SPL常规计算与MYSQL对比(单位:秒)注:测试环境和方法参见  《如何用esProc将数据库表转储提速查询》SPL代码也很简单,比如大订单表的过滤和分组汇总:专业OLAP数据仓库利用列存压缩等技术能让常规运算中跑出较高性能 比如以快著称的ClickHouse数据库,在同样环境下跑国际通行的TPC-H测试题,简单的Q1和SPL的性能基本相当,但是稍复杂一些的Q2、Q3、Q7就完全不如SPL了: SQL 看起来并不算很复杂:WITH DT AS ( SELECT DISTINCT id, ROUND(tm/900)+1 as tn, loc FROM T WHERE tm<3*86400)SELECT 同时,SPL代码仍很简单:6月6日有现场讲解用SPL实现外置提速的免费培训:课程涉及的实例都是传统数据库很头疼的老大难问题,比如COUNT DISTINCT,外键JOIN,大主子表关联(包括EXISTS

    23910编辑于 2025-05-23
  • 来自专栏全栈工程师修炼之路

    Python3外置模块使用

    [TOC] 0x00 快速入门 (1)外置模块一览表 描述:Python外置模块可以说是Python的强大之处的存在,使得Python语言扩展性高,使用方法众多并且使用也非常简单,在我们日常的运维开发学习中尤为重要 信息模块 import ruamel.yaml #YAML解析模块 import dnspython #DNS解析信息模块 import pycurl #web探测模块 ---- 0x01 外置模块详解 /usr/bin/python3 #python3使用csv模块读写csv文件 import csv #案例1:输出数据写入CSV文件 data = [ ("Mike", "male", 24 ('A3', None) #写入空数据类型 worksheet.write_blank(2,1, '') #写入空数据类型 worksheet.write('A4' 安装模块说明: #首先安装PDFMiner,注意Python3要安装pdfminer3k #Windows下面安装pdfminer3k pip install pdfminer3k #Linux下面安装

    4.1K30编辑于 2022-09-28
  • 来自专栏全栈工程师修炼之路

    Python3外置模块使用

    [TOC] 0x00 快速入门 (1)外置模块一览表 描述:Python外置模块可以说是Python的强大之处的存在,使得Python语言扩展性高,使用方法众多并且使用也非常简单,在我们日常的运维开发学习中尤为重要 exif信息模块 import ruamel.yaml #YAML解析模块 import dnspython #DNS解析信息模块 import pycurl #web探测模块 0x01 外置模块详解 /usr/bin/python3 #python3使用csv模块读写csv文件 import csv #案例1:输出数据写入CSV文件 data = [ ("Mike", "male", 24 ('A3', None) #写入空数据类型 worksheet.write_blank(2,1, '') #写入空数据类型 worksheet.write('A4' 安装模块说明: #首先安装PDFMiner,注意Python3要安装pdfminer3k #Windows下面安装pdfminer3k pip install pdfminer3k #Linux下面安装

    5.2K20发布于 2020-10-23
  • 来自专栏星汉技术

    Hive应用:数据外置内部表 原

    0 6.0 刘备 40.0 男 成都 0 7.0 小李 29.0 男 江南 0 Time taken: 0.141 seconds, Fetched: 7 row(s) hive> 此时就创建了一个数据外置的内部表 ,这个表也允许先有数据,上面展示的数据,就是证明了这一点,完美展示了数据外置的内部表。 然而如果删除Hive中的这个表的话,数据也会跟着被删除。 下图是数据存放的目录: ? 在看一下test数据库目录: ? 没有person表的目录。 Time taken: 0.184 seconds hive> show tables; OK person promo tab Time taken: 0.222 seconds, Fetched: 3 总结 所以综上所述,这种内部表有普通外部表的先有数据的特性,还具有普通内部表删除表数据也同时删除的特性。那么如果这个表也是内部表的话,那么内部表和外部表的区别在哪里?

    60320发布于 2019-03-13
  • 来自专栏鳄鱼儿的技术分享

    Docker 安装 Redis 并外置数据文件

    前言 Redis是一个开源的内存型数据库,也被称为数据结构服务器nosql。它是一种高性能、非关系型数据库,通常用于缓存和快速存储键值对数据,也可以支持多种复杂的数据结构。 将配置文件和数据文件映射到外部 创建存放redis数据的文件夹 mkdir -p ~/i/apps/redis/{conf,data} 下载配置文件 下载redis配置文件,这里是redis的默认配置 注释 bind 127.0.0.1 # 2. protected-mode yes 修改成 protected-mode no # 3. 该参数后data映射是将主机上的数据目录 ~/i/apps/redis/data 映射到容器内部的 /data 目录。这样可以将 Redis 数据持久化到主机文件系统,即数据在容器销毁后仍可以保留。 name myredis redis redis-server /usr/local/etc/redis/redis.conf 脚本启动 为了方便启动redis,这里我写了一个启动脚本,该脚本仅映射了数据文件的

    54810编辑于 2024-05-21
  • 来自专栏Python数据科学

    经验 | 3行代码数据预处理提速6倍!

    它易于使用,并拥有许多很棒的库,可以轻松地处理数据。但是当我们需要处理大量数据时,事情就变得棘手了...... “大数据”这个词通常指的是数据集,一个数据集里的数据点如果没有数百万个,也有数十万。 感谢Python的concurrent.futures模块,只需3行代码就可以将一个普通程序转换为一个可以跨CPU核心并行处理数据的程序。 ? 这个程序遵循在数据处理脚本中经常看到的简单模式: 首先是要处理的文件(或其他数据)列表; 你可以使用for循环逐个处理每个数据片段,然后在每个循环迭代上运行预处理 让我们在一个包含1000个jpeg文件的文件夹上测试这个程序 我们只需修改3行代码。 ? 上面的代码中的: ? 你有多少CPU核心就启动多少Python进程,在我的例子中是6个。实际的处理代码是这样的: ? 是否总能大幅加速 当你有要处理的数据列表并且要对每个数据点执行类似的计算时,使用Python并行池是一个很好的解决方案。但是,它并不总是完美的。并行池处理的数据不会以任何可预测的顺序处理。

    69550发布于 2018-12-25
  • 来自专栏机器学习算法与Python学习

    经验 | 3行代码数据预处理提速6倍!

    它易于使用,并拥有许多很棒的库,可以轻松地处理数据。但是当我们需要处理大量数据时,事情就变得棘手了...... “大数据”这个词通常指的是数据集,一个数据集里的数据点如果没有数百万个,也有数十万。 感谢Python的concurrent.futures模块,只需3行代码就可以将一个普通程序转换为一个可以跨CPU核心并行处理数据的程序。 ? 这个程序遵循在数据处理脚本中经常看到的简单模式: 首先是要处理的文件(或其他数据)列表; 你可以使用for循环逐个处理每个数据片段,然后在每个循环迭代上运行预处理 让我们在一个包含1000个jpeg文件的文件夹上测试这个程序 我们只需修改3行代码。 ? 上面的代码中的: ? 你有多少CPU核心就启动多少Python进程,在我的例子中是6个。实际的处理代码是这样的: ? 是否总能大幅加速 当你有要处理的数据列表并且要对每个数据点执行类似的计算时,使用Python并行池是一个很好的解决方案。但是,它并不总是完美的。并行池处理的数据不会以任何可预测的顺序处理。

    57630发布于 2018-12-25
  • 来自专栏相约机器人

    技巧 | 3 行代码让 Python 数据预处理提速 6 倍!

    它易于使用,并拥有许多很棒的库,可以轻松地处理数据。但是当我们需要处理大量数据时,事情就变得棘手了...... “大数据”这个词通常指的是数据集,一个数据集里的数据点如果没有数百万个,也有数十万。 感谢Python的concurrent.futures模块,只需3行代码就可以将一个普通程序转换为一个可以跨CPU核心并行处理数据的程序。 ? 这个程序遵循在数据处理脚本中经常看到的简单模式: 首先是要处理的文件(或其他数据)列表; 你可以使用for循环逐个处理每个数据片段,然后在每个循环迭代上运行预处理 让我们在一个包含1000个jpeg文件的文件夹上测试这个程序 我们只需修改3行代码。 ? 上面的代码中的: ? 你有多少CPU核心就启动多少Python进程,在我的例子中是6个。实际的处理代码是这样的: ? 当你有要处理的数据列表并且要对每个数据点执行类似的计算时,使用Python并行池是一个很好的解决方案。但是,它并不总是完美的。并行池处理的数据不会以任何可预测的顺序处理。

    1.2K40发布于 2019-06-21
  • 来自专栏程序员的知识天地

    3行代码让Python数据处理脚本获得4倍提速

    得益于Python的 concurrent.futures 模块,我们只需3行代码,就能将一个普通数据处理脚本变为能并行处理数据的脚本,提速4倍。 试试创建多进程 下面是一种可以让我们并行处理数据的方法: 1.将JPEG文件划分为4小块。 2.运行Python解释器的4个单独实例。 3.让每个Python实例处理这4块数据中的一块。 整个过程我们只需要改动3行代码。 如果你要处理非常大的数据集,这里有篇设置将数据集切分成多少小块的文章,可以读读,会对你帮助甚大. 这种方法总能帮我的数据处理脚本提速吗? 如果你有一列数据,并且每个数据都能单独处理时,使用我们这里所说的Process Pools是一个提速的好方法。下面是一些适合使用并行处理的例子: 从一系列单独的网页服务器日志里抓取统计数据

    1.1K40发布于 2018-12-06
  • 来自专栏python小白到大牛

    有轻功:用3行代码让Python数据处理脚本获得4倍提速

    得益于Python的 concurrent.futures 模块,我们只需3行代码,就能将一个普通数据处理脚本变为能并行处理数据的脚本,提速4倍。 整个过程我们只需要改动3行代码。 这里是经过这三步改动后的程序代码: 我们来运行一下这段脚本,看看它是否以更快的速度完成数据处理: 脚本在2.2秒就处理完了数据!比原来的版本提速4倍! 如果你要处理非常大的数据集,这里有篇设置将数据集切分成多少小块的文章,可以读读,会对你帮助甚大. 这种方法总能帮我的数据处理脚本提速吗? 如果你有一列数据,并且每个数据都能单独处理时,使用我们这里所说的Process Pools是一个提速的好方法。下面是一些适合使用并行处理的例子: 从一系列单独的网页服务器日志里抓取统计数据

    1.2K30发布于 2018-07-26
  • 来自专栏大数据在线

    释放数据潜力,HCSF为AI应用提速

    “五年前,我们很多行业客户的数据还是以ERP、CRM等数据为主,10TB就属于很大的数据量;今天,这些客户积累的数据量通常达到PB级,像行为数据等非结构化数据增长极为迅速,业务形态也发生了巨大变化,基于海量数据的 02 数据不该成为AI拦路虎 在了解AI应用带来的数据挑战之前,我们需要清楚AI应用场景会产生什么样的数据、这些数据具有什么特点、AI应用对于数据存储都会有哪些要求。 以OpenAI去年发布的GPT-3模型为例,模型参数高达1750亿个,预训练数据量高达45TB,最大层数高达96层,无论是模型规模、数据量、训练层数都呈现指数级的增长趋势。 03 HCSF:为AI应用提速 事实上,如果仔细分析AI应用涉及到的数据采集、整合、传输、存储、管理和应用,会发现当前很多企业往往是通过选择不同架构的数据存储产品来满足需求,造成在性能、可扩展性和易用性之间妥协 例如,HCSF的快照功能,可以推送到任何S3对象存储,将快照数据存储在云中,以方便日后使用,让基础设施根据应用状况来随时调整工作负载资源,变得更加敏捷和灵活,广泛满足人工智能、机器学习和分析型程序的需求

    65740发布于 2021-10-13
  • 来自专栏新智元

    训练速度远超3D CNN,提速3倍!Facebook首发「时空版」Transformer

    视频剪辑上限可达几分钟,远远超过当下最好的3D CNN,且成本更低。 论文链接:https://arxiv.org/pdf/2102.05095.pdf TimeSformer 在几个难度系数比较高的动作识别基准上获得了最好的效果,包括 Kinetics-400动作识别数据集 此外,与现代3D 卷积神经网络(CNN)相比,TimeSformer 的训练速度提高了大约3倍,推理所需计算量不到原来的十分之一。这是支持需要实时或按需处理视频的应用程序的重要一步。 TimeSformer在两个数据集上都实现了最高的准确度。 分时空注意力 传统的视频分类模型利用3D 卷积滤波器。 传统的3D卷积神经网络由于需要在视频的所有时空位置上使用大量的滤波器,所以计算成本也很高。

    1.2K10发布于 2021-03-24
  • 来自专栏一臻数据

    3分钟搞懂Arrow Flight SQL,让数据传输提速100倍的秘密

    接下来,追随着小华的故事,3分钟搞懂Arrow Flight SQL! 数据传输提速100倍! 数据分析师小华最近遇到了一个棘手的问题。 cursor.execute(sql) print("### result: ###") print(cursor.fetchallarrow().to_pandas()) # step3, k0 INT, k1 DOUBLE, K2 varchar(32) NULL DEFAULT "" COMMENT "", k3 _1", 1.00000001, 0, '2023-10-21'), ('2', 3.4, "ID_1", 3.1, 123456, '2023-10-22'), ('3' ") execute("show variables like \"%exec_mem_limit%\";") execute("select k5, sum(k1), count(1), avg(k3)

    1.1K00编辑于 2025-01-20
  • 来自专栏架构师

    利用HTTP2与HTTP3 给你的网站提速!!

    虽然 HTTP/2 提高了网页的性能,但是并不代表它已经是完美的了,HTTP/3 就是为了解决 HTTP/2 所存在的一些问题而被推出来的。 一、HTTP/1.1发明以来发生了哪些变化? 3.明文传输--带来的不安全性 HTTP/1.1在传输数据时,所有传输的内容都是明文,客户端和服务器端都无法验证对方的身份,这在一定程度上无法保证数据的安全性。 总之,在传输数据之前,我们需要花掉 3~4 个 RTT。 TCP的队头阻塞并没有彻底解决 上文我们提到在HTTP/2中,多个请求是跑在一个TCP管道中的。 不过HTTP/3目前还处于草案阶段,正式发布前可能会有变动,所以本文尽量不涉及那些不稳定的细节。 3.QUIC新功能 上面我们提到QUIC基于UDP,而UDP是“无连接”的,根本就不需要“握手”和“挥手”,所以就比TCP来得快。此外QUIC也实现了可靠传输,保证数据一定能够抵达目的地。

    2K41发布于 2019-10-22
  • 来自专栏我爱计算机视觉

    YOLOv3模型剪枝,瘦身80%,提速100%,精度基本不变

    在52CV目标检测交流群里,被提及最多的,恐怕就是YOLOv3了。 虽然新出的一些算法号称“完胜”“吊打”某某某算法,但YOLOv3 仍是被推荐最多的。 另一个重要原因是,YOLOv3是被很多人使用验证过的模型,被某个数据库验证过的某算法精度好很重要,但被社区大量验证过效果OK的算法更重要。 今天向大家推荐一个Github新工程,对YOLOv3进行模型剪枝: https://github.com/Lam1360/YOLOv3-model-pruning 这份代码是基于Python 3.6, 作者用 YOLOv3 做人手检测(在 oxford hand 数据集上训练的),并进行了模型剪枝,剪枝后YOLOv3 模型的参数量减少 80% ,FLOPs 降低 70%,推断的速度提高了100%,而 作者称,后续还会在其他数据集上做实验。 看来剪枝在实际应用部署时还真的很重要呢!

    80620发布于 2019-12-27
  • 来自专栏AI科技大本营的专栏

    YOLOv3模型剪枝,瘦身80%,提速100%,精度基本不变

    在52CV目标检测交流群里,被提及最多的,恐怕就是YOLOv3了。 虽然新出的一些算法号称“完胜”“吊打”某某某算法,但YOLOv3 仍是被推荐最多的。 另一个重要原因是,YOLOv3是被很多人使用验证过的模型,被某个数据库验证过的某算法精度好很重要,但被社区大量验证过效果OK的算法更重要。 今天向大家推荐一个Github新工程,对YOLOv3进行模型剪枝: https://github.com/Lam1360/YOLOv3-model-pruning 这份代码是基于Python 3.6, 作者用 YOLOv3 做人手检测(在 oxford hand 数据集上训练的),并进行了模型剪枝,剪枝后YOLOv3 模型的参数量减少 80% ,FLOPs 降低 70%,推断的速度提高了100%,而 Networks Through Network Slimming (ICCV 2017) https://arxiv.org/abs/1708.06519 剪枝步骤也非常简单: 作者称,后续还会在其他数据集上做实验

    3.9K00发布于 2019-07-11
  • 来自专栏应用计算

    SPL轻量级文件存储提速查询实践

    传统交易(TP)数据库不擅长分析计算,而专业 OLAP 数据库又过于沉重,经常需要集群,不仅成本高昂,也会使系统架构变得更复杂。 esProc SPL 很轻,直接嵌入应用就可以运行,在实现数据外置提速的同时,也不会让整个系统架构变得很复杂:这里准备了一套使用 SPL 外置数据提速查询的实践方法:第一篇 - 常规过滤及分组汇总第二篇 乾学院有例子数据 csv 文件和建表 SQL,模拟某公司线下订单和电子商务的部分数据。需要在 MYSQL 数据库中建表,并导入 csv 数据。 customer,存储线下客户数据数据量较小:城市表 city,存储线下客户所在城市数据数据量较小:州表 state,存储线下客户所在州数据数据量较小:运货商表 shipper,存储线下运货商数据 在 IDE 中新建脚本,编写 SPL 语句,连接数据库,通过 SQL 加载 orders 表的数据

    23510编辑于 2025-08-26
  • 来自专栏数据库干货铺

    3提速InnoDB恢复速度!

    提高Checkpoint效率 原理:Checkpoint 越频繁,脏页越早刷盘,崩溃时需恢复的数据越少。 注意:innodb_max_dirty_page_pct 降低可减少恢复数据量,提升该值可降低运行时IO压力,但是也按需修改(例如线上IO压力较大时改为95) 脏页情况可以查看状态获取相关信息 SHOW 使用高性能存储(SSD/NVMe) Redo log 和数据页的读写是恢复的瓶颈。 注意: 极端情况:跳过恢复(仅用于抢救数据),这个昨天的文章里已经说明了,可以参考: MySQL崩溃恢复神器:innodb_force_recovery 参数详解,DBA 必备! 欢迎留言分享你的数据库故事! 关注微信公众号「数据库干货铺」,获取更多数据库运维干货。

    13110编辑于 2026-03-04
  • 来自专栏我爱计算机视觉

    YOLOv3 精度再次提高 4.3%,训练提速 40%!PaddleDetection全面升级

    YOLOv3大幅增强,精度提升4.3%,训练提速40%,推理提速21% 在基于COCO数据集的测试中,骨干网络DarkNet作者在其论文中所使用的YOLOv3模型的验证精度mAP为33.0%,而飞桨在之前版本中曾经发布过基于 实验数据表明,使用ResNet50-VD和DCVv2后,模型精度提升了0.2%,提速约为21%。 在FPN部分增加DropBlock模块,提高了模型泛化能力。 人脸检测模型BlazeFace压缩3倍,提速122% PaddleDetection中包含了两种轻量化的人脸检测算法,即Faceboxes和BlazeFace。 实验表明以ResNet50vd-dcn-YOLOv3为例,在COCO数据集上FLOPS降低了8.4%,mAP提高了0.7%;MobileNet-YOLOv3在COCO数据集上FLOPS降低了28.54% 该方案中使用了PaddleDetection的目标检测模型YOLOv3,并使用了YOLOv3的压缩方案进行部署,可以实现定时拍照、数据收集、智能分析、自动上报等功能。

    1.6K10发布于 2020-03-19
  • 来自专栏量子位

    Pandas循环提速7万多倍!Python数据分析攻略

    乾明 编译整理 量子位 报道 | 公众号 QbitAI 用Python和Pandas进行数据分析,很快就会用到循环。 但在这其中,就算是较小的DataFrame,使用标准循环也比较耗时。 他是一位来自德国的数据分析师,名叫Benedikt Droste。 他说,当自己花了大半个小时等待代码执行的时候,决定寻找速度更快的替代方案。 我们一起来看看~ 标准循环处理3年足球赛数据:20.7秒 DataFrame是具有行和列的Pandas对象。如果使用循环,需要遍历整个对象。 Python不能利用任何内置函数,而且速度很慢。 他说,如果你使用Python、Pandas和Numpy进行数据分析,总会有改进代码的空间。 在对上述五种方法进行比较之后,哪个更快一目了然: ?

    2.4K30发布于 2019-09-02
领券