首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏机器学习AI算法工程

    R数据分析大数据当中的化整为零(Split-Apply-Combine)策略

    这也就是所谓的Split-Apply-Combine Strategy策略。这在速度上会有比做一个loop有优势,因为它可以并行处理数据。 什么时候我们需要使用到化整为零的策略呢? 当然map-reduce策略的基础是网格,而这里的Split-Apply-Combine的基础完全可以是单机,甚至不支持并行处理的单机都可以。 然而,化整为零并不是一个很直观的编程过程。 第一步生成ozone这样子的数据,就是化整为零策略(Split-Apply-Combine)的第一步了。 这就是一个完整而简单的Split-Apply-Combine的过程了。

    1.5K80发布于 2018-03-13
  • 来自专栏王小雷

    Python之数据聚合与分组运算

    Hadley Wickham创建了用于表示分组运算术语“split-apply-combine”(拆分-应用-合并)。 3. GroupBy的size方法,它可以返回一个含有分组大小的Series。

    1.4K90发布于 2018-01-02
  • 来自专栏王的机器

    盘一盘 Python 系列 4 - Pandas (下)

    这种操作称之为 split-apply-combine, 6.1 数据准备 本节使用的数据描述如下: 5 只股票:AAPL, JD, BABA, FB, GS 1 年时期:从 2018-02-26 到 6.4 split-apply-combine 前几节做的事情的实质就是一个 split-apply-combine 的过程,如下图所示: 该 split-apply-combine 过程有三步: 根据 Apply 函数 在 split-apply-combine 过程中,apply 是核心。 【split-apply-combine】用 apply 函数做数据分析时美滋滋。

    5.5K40发布于 2019-07-05
  • 来自专栏王的机器

    精品课 - Python 数据分析

    数据创建 (不会创建那还学什么) 数据存载 (存为了下次载,载的是上回存) 数据获取 (基于位置、基于标签、层级获取) 数据结合 (按键合并、按轴结合) 数据重塑 (行列互转、长宽互转) 数据分析 (split-apply-combine ---- HOW WELL 比如在讲拆分-应用-结合 (split-apply-combine) 时,我会先从数据帧上的 sum() 或 mean() 函数引出无条件聚合,但通常希望有条件地在某些标签或索引上进行聚合

    4.2K41发布于 2021-07-29
  • 来自专栏技术沉淀

    长文:一文掌握Pandas

    1.31 Name: a, dtype: object 参考 Difference between map, applymap and apply methods in Pandas Group By split-apply-combine A B first bar 2 1 foo 4 3 其他几种操作 Transformation Filtration Flexible Apply 参考 Group By: split-apply-combine

    1.1K40发布于 2019-03-01
  • 来自专栏machine_learning

    使用Pandas_UDF快速改造Pandas代码

    9| # +-------------------+ 1.2 Grouped Map Grouped map(分组映射)panda_udf与groupBy().apply()一起使用,后者实现了“split-apply-combinesplit-apply-combine”包括三个步骤: 使用DataFrame.groupBy将数据分成多个组。 对每个分组应用一个函数。函数的输入和输出都是pandas.DataFrame。

    8.9K20发布于 2020-09-09
  • 来自专栏YoungGy

    R语言包_plyr

    基础 R函数和plyr plyr包中一些有用的函数 R程序 参考资料 plyr: The split-apply-combine strategy for R 不再是循环,而是向量操作,这个包的目的是简化

    1.5K20发布于 2019-05-26
  • 来自专栏科技记者

    《高效R语言编程》6--高效数据木匠

    滤除行 filter() ## 键操作 数据聚合 基于组合变量生成数据汇总,以前称为split-apply-combine。summarize是一个多面手,用于返回自定义范围的汇总统计值。

    2.7K20发布于 2021-07-27
  • 来自专栏机器学习/数据可视化

    python-for-data-groupby使用和透视表

    groupby机制 组操作的术语:拆分-应用-联合split-apply-combine。分离是在特定的轴上进行的,axis=0表示行,axis=1表示列。

    2.8K30发布于 2021-03-01
  • 来自专栏小数志

    Pandas中groupby的这些用法你都知道吗?

    理解groupby的split-apply-combine三步走处理流程,那么自然也很容易理解resample处理流程:按照时间split——apply——combine。

    5.5K40发布于 2020-07-16
  • 来自专栏Python3爬虫100例教程

    周一不睡觉,也要把pandas groupy 肝完,你该这么学,No.8

    后来,转念一想,不行啊,我是大佬啊 咋能不写 于是乎,我就写了今天这篇博客 groupby 核心为 split-apply-combine 啥意思呢,就是字面意思呗 分割-应用-组合 ?

    1K32发布于 2019-06-18
  • 来自专栏机器学习/数据可视化

    pandas系列5-分组_groupby

    其思想是“split-apply-combine”(拆分 - 应用 - 合并).

    2.5K20发布于 2021-03-02
  • 来自专栏王的机器

    盘一盘 Python 特别篇 15 - Pivot Table

    透视表是一种做多维数据分析的工具,还记得 Pandas 的 split-apply-combine 三部曲吗?首先用 groupby 分组,再平行将某个函数应用到各组上,最后自动连接成一个总表。

    2K20发布于 2020-06-16
  • 来自专栏大数据文摘

    手把手 | 数据科学速成课:给Python新手的实操指南

    使用GroupBy:split-apply-combine逻辑! Pandas最强大的操作之一是合并,连接和序列化表格。它允许我们执行任何从简单的左连接和合并到复杂的外部连接。 同样,使用GroupBy:split-apply-combine逻辑,我们可以创建一个包含观察值的新列,如果它是用户的最后一个会话,观察值将为1,否则为0。

    1.5K50发布于 2018-05-23
  • 来自专栏数据驱动实践

    R语言 分组计算,不止group_by

    7 4 1 1 7 2 ddply 接触了Hadley Wickham神包tidyverse以后感觉数据操作那么简单,这里介绍一种可以实现分组计算/操作的方法,就是plyr包的split-apply-combine

    8.7K50发布于 2020-07-10
  • 来自专栏数据分析1480

    分组统计你只想到group_by操作吗?

    7 4 1 1 7 2 ddply 接触了Hadley Wickham神包tidyverse以后感觉数据操作那么简单,这里介绍一种可以实现分组计算/操作的方法,就是plyr包的split-apply-combine

    1.3K30发布于 2019-09-02
  • 来自专栏萝卜大杂烩

    Pandas GroupBy 深度总结

    Roth male North America 整合结果 split-apply-combine 链的最后一个阶段——合并结果——由Ppandas 在后台执行。 将此数据结构分配给一个变量,我们可以用它来解决其他任务 总结 今天我们介绍了使用 pandas groupby 函数和使用结果对象的许多知识 分组过程所包括的步骤 split-apply-combine

    6.7K40编辑于 2022-09-28
  • 来自专栏王的机器

    盘一盘 Python 系列特别篇 PyEcharts TreeMap

    比如我们要计算据行业市值总和,那么在 DataFrame 数据上最简介的形式就是用 split-apply-combine。不用记住具体细节,要用时查找文档或例子一下子就会写了。

    5.6K60发布于 2019-07-05
  • 来自专栏全栈程序员必看

    PySpark-prophet预测

    pandas_udf进行装饰,PandasUDFType有两种类型一种是Scalar(标量映射),另一种是Grouped Map(分组映射).我们显然是要使用分组映射,通过store_sku作为id进行分组,从而实现split-apply-combine

    1.8K30编辑于 2022-08-31
  • 来自专栏进击的Coder

    亲,你看到这张封面图,竟是用 PyEcharts 画的!信不信?

    比如我们要计算据行业市值总和,那么在 DataFrame 数据上最简介的形式就是用 split-apply-combine。不用记住具体细节,要用时查找文档或例子一下子就会写了。

    2K60发布于 2019-07-12
领券