首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏MixLab科技+设计实验室

    推荐一个python库:Vaex

    Vaex是一个开源的DataFrame库。 先感受下速度,如果在笔记本电脑上运行: Pandas将按每秒数百万字符串的顺序进行; Spark将以每秒1000万个字符串的顺序执行; Vaex每秒可以处理大约1亿个字符串; Vaex可以对表格数据集进行可视化 为此,Vaex采用了内存映射、高效的外核算法和延迟计算等概念来获得最佳性能(不浪费内存)。所有这些都封装在一个类似Pandas的API中。 GitHub: https://github.com/vaexio/vaex 有兴趣建议尝试下哈~

    1.6K30发布于 2019-12-17
  • 来自专栏早起Python

    Vaex :突破pandas,快速分析100GB大数据集

    换上今天的主角vaex,读取同样的数据,做同样的平均值计算,需要多少时间呢? 使用vaex读取并计算: ? 文件读取用了9ms,可以忽略不计,平均值计算用了1s,总共1s。 ❞ 什么是vaex? 前面对比了vaex和pandas处理大数据的速度,vaex优势明显。虽然能力出众,不比pandas家喻户晓,vaex还是个刚出圈的新人。 ? 官网对vaex的介绍可以总结为三点: vaex是一个用处理、展示数据的数据表工具,类似pandas; vaex采取内存映射、惰性计算,不占用内存,适合处理大数据; vaex可以在百亿级数据集上进行秒级的统计分析和可视化展示 读取数据 vaex支持读取hdf5、csv、parquet等文件,使用read方法。hdf5可以惰性读取,而csv只能读到内存中。 ? vaex数据读取函数: ? vaex的统计计算函数: ? 可视化展示 vaex还可以进行快速可视化展示,即便是上百亿的数据集,依然能秒出图。 ? vaex可视化函数: ?

    3.3K31发布于 2020-09-23
  • 来自专栏Python大数据分析

    Vaex :突破pandas,快速分析100GB大数据集

    换上今天的主角vaex,读取同样的数据,做同样的平均值计算,需要多少时间呢? 使用vaex读取并计算: 文件读取用了9ms,可以忽略不计,平均值计算用了1s,总共1s。 ❞ 什么是vaex? 前面对比了vaex和pandas处理大数据的速度,vaex优势明显。虽然能力出众,不比pandas家喻户晓,vaex还是个刚出圈的新人。 官网对vaex的介绍可以总结为三点: vaex是一个用处理、展示数据的数据表工具,类似pandas; vaex采取内存映射、惰性计算,不占用内存,适合处理大数据; vaex可以在百亿级数据集上进行秒级的统计分析和可视化展示 vaex的统计计算函数: 可视化展示 vaex还可以进行快速可视化展示,即便是上百亿的数据集,依然能秒出图。 vaex可视化函数: 结论 vaex有点类似spark和pandas的结合体,数据量越大越能体现它的优势。只要你的硬盘能装下多大数据,它就能快速分析这些数据。

    2.8K70编辑于 2022-04-03
  • 来自专栏Dechin的专栏

    python3表格数据处理

    但是用vaex,我们依然可以对这个文件进行处理。 在vaex的官方文档链接中也介绍有vaex的原理和优势: ? vaex Downloading vaex-4.1.0-py3-none-any.whl (4.5 kB) Collecting vaex-ml<0.12,>=0.11.0 Downloading , vaex-ml, vaex-viz, vaex-astro, vaex-hdf5, cachetools, vaex-server, xarray, jupyterlab-widgets, ipywidgets -4.1.0 vaex-astro-0.8.0 vaex-core-4.1.0 vaex-hdf5-0.7.0 vaex-jupyter-0.6.0 vaex-ml-0.11.1 vaex-server In [1]: import vaex In [2]: df = vaex.from_csv('data.csv') In [3]: df.export_hdf5('vaex_data.hdf5')

    3.2K20发布于 2021-05-21
  • 来自专栏DeepHub IMBA

    对比Vaex, Dask, PySpark, Modin 和Julia

    我们将看一下Dask,Vaex,PySpark,Modin(全部使用python)和Julia。 Vaex 到目前为止,我们已经看到了将工作分散在更多计算机核心之间以及群集中通常有许多计算机之间的平台。他们还无法击败Pandas而 Vaex的目标是做到这一点。 Vaex虽然不支持Pandas的全部功能,但可以计算基本统计信息并快速创建某些图表类型。 Vaex语法 Pandas和vaex语法之间没有太多区别。 ? Vaex性能 与前两种工具不同,Vaex的速度与Pandas非常接近,在某些地区甚至更快。 ? 通常情况下,Pandas会很好,但也有可能你会遇到困难,这时候可以尝试以下vaexVaex显示了在数据探索过程中加速某些任务的潜力。在更大的数据集中,这种好处会变得更明显。 Julia的开发考虑到了数据科学家的需求。

    6.3K10发布于 2021-02-12
  • 来自专栏量化投资与机器学习

    仅需1秒!搞定100万行数据:超强Python数据分析利器

    GitHub:https://github.com/vaexio/vaex 3 Vaex vs Dask、Pandas、Spark Vaex与Dask不同,但与Dask DataFrames相似,后者是在 Vaex不生成DataFrame副本,所以它可以在内存较少的机器上处理更大的DataFrame。 Vaex和Dask都使用延迟处理。 4 Vaex真的很快! 我们需要将CSV转换为HDF5,才能看到Vaex的优点。 事实上,Vaex只受可用磁盘空间的限制。 dv = vaex.open('big_file.csv.hdf5') Vaex需要不到1秒的时间来执行上面的命令。但Vaex实际上并没有读取文件,因为延迟加载。

    2.9K1817发布于 2020-06-09
  • 来自专栏ShowMeAI研究中心

    快使用Vaex DataFrame,每秒数亿数据算起来 ⛵

    图片本文详细介绍了Vaex这个强大的工具库,能够每秒处理数亿甚至数十亿行数据,而无需将整个数据集加载到内存中。对于大型数据的分析任务,Vaex的效率更简单,对硬件/环境的要求更少!pandas升级版! 大家可以试试 Vaex。图片Vaex 是一个非常强大的 Python DataFrame 库,能够每秒处理数亿甚至数十亿行,而无需将整个数据集加载到内存中。 Vaex 支持delay=True等参数,可以并行执行计算与操作,使得 Vaex 可以提前构建计算图,并尝试找到最有效的计算结果的方式。 要计算一列的平均值,只会获取该特定列的所有数据,Vaex 将流式传输该部分数据,因此并不会占用大量带宽和网络资源:df_cloud = vaex.open('gs://vaex-data/airlines 异步编程官方指南:https://vaex.io/docs/guides/async.html Vaex的先进的细粒度的缓存机制:https://vaex.io/docs/guides/caching.html

    2.6K72编辑于 2022-12-03
  • 来自专栏最新Python入门基础合集

    从GB到TB:Python处理超大规模数据的4大杀器(Mars_Dask_CuPy_Vaex

    Vaex:可视化分析大规模表格数据的 “魔法师” 最后一位登场的是 Vaex,它是一个用于可视化分析大规模表格数据的神奇工具,就像一位魔法师,能让你轻松看透大规模数据背后的秘密。 Vaex 的官方网站:Vaex 官方网站链接,在这个网站上,你可以找到详细的教程、示例代码以及社区分享的各种使用经验,帮助你快速掌握 Vaex 这个强大的工具。 Vaex 代码实战 假设我们有一个包含数十亿条记录的天文数据文件(以 HDF5 格式存储),使用 Vaex 来进行数据探索和可视化。 安装 Vaex: pip install vaex 代码如下: import vaex # 打开HDF5格式的天文数据文件 df = vaex.open('astronomy_data.hdf5') Vaex 文件格式支持:Vaex 对某些文件格式有更好的支持,如 HDF5。在选择数据存储格式时,要考虑 Vaex 的特性。如果使用不兼容的格式,可能无法充分发挥 Vaex 的性能优势。

    1K10编辑于 2025-05-17
  • 来自专栏AI研习社

    如何使用 Python 分析笔记本电脑上的 100 GB 数据

    Vaex ? Vaex 是一个开源的数据框架库,它可以在与硬盘大小相同的表格数据集上进行可视化、探索、分析甚至机器学习。为此,Vaex 采用了一些概念,如内存映射、高效的核心外算法和延后计算。 /vaex-taxi-article.ipynb)中单独查看。 使用 Vaex 打开内存映射文件只需要 0.052 秒,即使它们超过 100 GB 为什么这么快?使用 Vaex 打开内存映射文件时,实际上没有数据读取。 这是因为显示 Vaex 数据帧或列只需要从磁盘读取前 5 行和后 5 行。这就引出了另一个重要的问题:Vaex 只会在必须的时候遍历整个数据集,它会尽可能少地传递数据。 下一步是我最喜欢的 Vaex 特性之一:带有选择的聚合。其他库要求对以后合并为一个支付方法的每个单独筛选的数据帧进行聚合。另一方面,使用 Vaex,我们可以通过在聚合函数中提供选择来一步完成此操作。

    1.6K22发布于 2019-12-12
  • 来自专栏AI科技大本营的专栏

    0.052秒打开100GB数据?这个Python开源库这样做数据分析

    Vaex是解决这个问题的新方法。它是一种几乎可以对任意大小的数据进行数据科学研究的更快、更安全、更方便的方法,只要数据集可以安装在你的笔记本电脑,台式机或服务器硬盘上。 ? 什么是VaexVaex使用内存映射、零内存复制策略获得最佳性能(不浪费内存)。 为实现这些功能,Vaex 采用内存映射、高效的核外算法和延迟计算等概念。 /vaex-taxi-article.ipynb)。 后记 此外,作者还从出租车司机最大化利润等角度利用Vaex进行分析数据。总之,Vaex会帮你缓解可能面临的一些数据挑战的问题。 Vaex 官方网站:https://vaex.io/ 文档:https://docs.vaex.io/ GitHub:https : //github.com/vaexio/vaex PyPi:https

    1.6K20发布于 2020-03-05
  • 来自专栏ATYUN订阅号

    如何用Python在笔记本电脑上分析100GB数据(下)

    如果表达式或函数只使用来自Numpy包的Python操作和方法编写,Vaex将使用机器的所有核心并行计算它。 使用Vaex,我们可以快速执行核心分组和聚合操作。让我们来探讨7年来票价和行程是如何演变的: ? 注意,在上面的代码块中,一旦我们聚合了数据,小的Vaex数据帧可以很容易地转换为Pandas数据帧,我们可以方便地将其传递给Seaborn。 下一步是我最喜欢的Vaex特性之一:带有选择的聚合。其他库要求对以后合并为一个支付方法的每个单独筛选的数据帧进行聚合。另一方面,使用Vaex,我们可以通过在聚合函数中提供选择来一步完成此操作。 如果您对本文中使用的数据集感兴趣,可以直接从S3使用Vaex。请参阅完整的Jupyter notebook,以了解如何做到这一点。

    1.5K10发布于 2019-12-17
  • 来自专栏程序员泥瓦匠

    爱了!0.052s 打开 100GB 数据,这个开源库火爆了!

    Vaex是解决这个问题的新方法。它是一种几乎可以对任意大小的数据进行数据科学研究的更快、更安全、更方便的方法,只要数据集可以安装在你的笔记本电脑,台式机或服务器硬盘上。 什么是VaexVaex使用内存映射、零内存复制策略获得最佳性能(不浪费内存)。 为实现这些功能,Vaex 采用内存映射、高效的核外算法和延迟计算等概念。 /vaex-taxi-article.ipynb)。 这是因为显示Vaex DataFrame或列仅需要从磁盘读取前后5行数据。这将我们引向另一个重点:Vaex只会在需要时遍历整个数据集,并且会尝试通过尽可能少的数据传递来做到这一点。 后记 此外,作者还从出租车司机最大化利润等角度利用Vaex进行分析数据。总之,Vaex会帮你缓解可能面临的一些数据挑战的问题。

    1.2K10编辑于 2021-12-17
  • 来自专栏量化投资与机器学习

    使用Python『秒开』100GB+数据!

    Vaex ? Vaex是一个开源的DataFrame库,它可以对表格数据集进行可视化、探索、分析,甚至机器学习,这些数据集和你的硬盘驱动器一样大。 GitHub:https://github.com/vaexio/vaex ? 为了说明Vaex的性能,我们为大家举个例子。 当你使用Vaex打开内存映射文件时,实际上没有数据读取。Vaex只读取文件元数据,比如磁盘上数据的位置、数据结构(行数、列数、列名和类型)、文件描述等等。那么,如果我们想要检查或与数据交互呢? 这是因为显示Vaex DataFrame或列只需要从磁盘读取前5行和后5行。这就引出了另一个重要的问题:Vaex只会在必要时遍历整个数据集,而且它会尽可能少地遍历数据。 现在开始清理数据集。 用Vaex创建和显示柱状图和热图是如此的快,这样的图可又是交互式的!

    1.7K01发布于 2019-12-17
  • 来自专栏自学气象人

    【科研利器】Python处理大数据,推荐4款加速神器

    项目地址:https://github.com/cupy/cupy 官方文档:https://docs-cupy.chainer.org/en/stable/ Vaex Vaex是一个开源的 DataFrame Vaex采用了内存映射、高效的外核算法和延迟计算等概念来获得最佳性能(不浪费内存),一旦数据存为内存映射格式,即便它的磁盘大小超过 100GB,用 Vaex 也可以在瞬间打开它(0.052 秒)。 项目地址:https://github.com/vaexio/vaex 官方文档:https://vaex.readthedocs.io/en/latest/

    1.6K90编辑于 2022-11-02
  • 来自专栏程序IT圈

    Python处理大数据,推荐4款加速神器

    项目地址:https://github.com/cupy/cupy 官方文档:https://docs-cupy.chainer.org/en/stable/ Vaex Vaex是一个开源的 DataFrame Vaex采用了内存映射、高效的外核算法和延迟计算等概念来获得最佳性能(不浪费内存),一旦数据存为内存映射格式,即便它的磁盘大小超过 100GB,用 Vaex 也可以在瞬间打开它(0.052 秒)。 项目地址:https://github.com/vaexio/vaex 官方文档:https://vaex.readthedocs.io/en/latest/ ?

    2.6K10发布于 2021-01-19
  • 来自专栏学西

    【Python篇】深入挖掘 Pandas:机器学习数据处理的高级技巧

    这时我们可以结合 Pandas 与大数据处理框架,如 PySpark 和 Vaex,来实现大规模数据的高效处理。 7.2 使用 Vaex 进行内存外处理 Vaex 是另一个轻量级的大数据处理库,支持内存外处理,特别适合超大规模数据集的处理。 pip install vaex 使用 Vaex 读取和处理大数据: import vaex # 读取大型 CSV 文件 df_vaex = vaex.open('large_file.csv') # 高效处理大数据集 df_vaex_filtered = df_vaex[df_vaex.Age > 30] # 执行计算并输出结果 print(df_vaex_filtered.head()) Vaex 结合 Dask、Vaex 等并行计算工具,Pandas 的能力可以得到充分释放,使得你在面对庞大的数据集时依旧能够保持高效处理与分析。

    2.1K10编辑于 2024-10-09
  • 来自专栏ATYUN订阅号

    如何用Python在笔记本电脑上分析100GB数据(上)

    Vaex ? Vaex是一个开源的DataFrame库,它可以在与硬盘大小相同的表格数据集上进行可视化、探索、分析甚至机器学习。为此,Vaex采用了内存映射、高效的外核算法和延迟计算等概念。 一旦数据是内存映射格式,使用Vaex打开它是瞬间的(0.052秒!),尽管磁盘上的容量超过100GB: ? 使用Vaex打开内存映射文件是即时的(0.052秒!),即使它们超过100GB大。 当您使用Vaex打开内存映射文件时,实际上没有数据读取。Vaex只读取文件元数据,比如磁盘上数据的位置、数据结构(行数、列数、列名和类型)、文件描述等等。那么,如果我们想要检查或与数据交互呢? 这是因为显示Vaex DataFrame或列只需要从磁盘读取前5行和后5行。这就引出了另一个重要的问题:Vaex只会在必要时遍历整个数据集,而且它会尽可能少地传递数据。 用Vaex创建和显示柱状图和热图是如此的快,这样的图可以是交互式的!

    1.4K21发布于 2019-12-17
  • 来自专栏Python大数据分析

    Modin,只需一行代码加速你的Pandas

    Modin VS Vaex Modin VS Dask Modin VS cuDF 为什么需要Modin? Pandas是python数据分析最常用的工具库,数据科学领域的大明星。 现在有很多库可以实现对Pandas的加速,比如Dask、Vaex、Ray、CuDF等,Modin和这些库对比有什么样的优势呢? 「Modin Vs Vaex」 Modin可以说是Pandas的加速版本,几乎所有功能通用。 Vaex的核心在于惰性加载,类似spark,但它有独立的一套语法,使用起来和Pandas差异很大。 如果你只是想简单统计或可视化大数据集,可以考虑Vaex。 「Modin Vs Dask」 Dask既可以作为Modin的后端引擎,也能单独并行处理DataFrame,提高数据处理速度。

    2.8K30编辑于 2022-04-03
  • 来自专栏Python数据科学

    速度起飞!替代 pandas 的 8 个神库

    Vaex Vaex 也是一个开源的 DataFrame,它采用内存映射、高效的核外算法和延迟计算等技术。 对于大数据集而言,只要磁盘空间可以装下数据集,使用Vaex就可以对其进行分析,解决内存不足的问题。 它的各种功能函数也都封装为类 Pandas 的 API,几乎没有学习成本。

    3.9K20编辑于 2023-08-29
  • 来自专栏pandas

    Pandas高级数据处理:并行计算

    分布式计算:对于超大规模的数据集,可以使用Dask或Vaex等分布式计算框架,它们与Pandas接口兼容,能够处理超出内存限制的数据。 对于大型数据集,考虑使用Dask或Vaex等分布式计算框架,它们能够在磁盘上存储中间结果,减少内存压力。

    75610编辑于 2025-01-26
领券