首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数说工作室

    统计师的Python日记【第6天:数据合并】

    本文是【统计师的Python日记】第6天的日记 回顾一下: 第1天学习了Python的基本页面、操作,以及几种主要的容器类型。 第2天学习了python的函数、循环和条件、类。 “两个数据列名字重复了”的合并 二、纵向堆叠 ---- 统计师的Python日记【第6天:数据合并】 前言 根据我的Python学习计划: Numpy → Pandas → 掌握一些数据清洗、规整、合并等功能 → 掌握类似与SQL的聚合等数据管理功能 → 能够用Python进行统计建模、假设检验等分析技能 → 能用Python打印出100元钱 → 能用Python帮我洗衣服、做饭 → 能用Python给我生小猴子 前面我把一些基本内容都掌握了,从Python的安装到语句结构、从Numpy/Pandas的数据格式到基本的描述性统计,现在终于要进入一个“应用型”的学习——数据的合并。 后记:已经是第6天的日记分享给大家了,觉得好就打个赏吧,我再接着写。

    1.6K80发布于 2018-04-04
  • 来自专栏小小挖掘机

    数据分析EPHS(6)-使用Spark计算数列统计

    前两篇中咱们分别介绍了使用Excel、Python和Hive SQL计算统计值,这次咱们使用Spark SQL来计算统计值。 数据分析EPHS(4)-使用Excel和Python计算数列统计数据分析EPHS(5)-使用Hive SQL计算数列统计值 先来回顾一下数据和对应的统计结果: 本文使用的是iris分类数据集,数据下载地址为 对应的统计结果如下: ? 在介绍之前,我还是想先说明一点,这一篇只是想先带大家体验一把Spark SQL,相关更多关于原理相关的知识,咱们会在后面的文章中详细介绍。 1、数据导入 这里咱们通过读取Excel的方式读取出相应的数据,并得到一个DataFrame: def createDFByCSV(spark:SparkSession) = { val df 2、使用Spark SQL计算统计值 2.1 最大值、最小值 使用Spark SQL统计最大值或者最小值,首先使用agg函数对数据进行聚合,这个函数一般配合group by使用,不使用group by的话就相当于对所有的数据进行聚合

    1.7K10发布于 2019-07-30
  • 来自专栏lsqingfeng

    Mysql统计6个月的数据,无数据的填充0

    之前写过一遍文章,记录了Mysql统计近30天的数据,无数据填0的方式。 原文地址: Mysql统计近30天的数据,无数据的填充0_lsqingfeng的博客-CSDN博客_mysql统计30天内的数据 而最近在做统计分析的时候,遇到了一个统计6个月的数据需求。 当时我这一看,这不是和我之前做的统计近30天的数据的需求差不多么,就准备照搬过来,但是却发现整体思路是一致的,但是生成这个近六个月的数据,有点不知所措。 核心思路还是要生成近6个月的月份数据。 MONTH ) FROM mysql.help_topic LIMIT 6 ) a 得到的结果如下: 有了近6个月的数据,我们就可以进行业务数据的关联了。

    1.7K30编辑于 2022-01-10
  • 来自专栏python3

    数据统计

    目录 Outline Vector norm Eukl. Norm L1 Norm reduce_min/max/mean argmax/argmin tf.equal Accuracy tf.unique Outline tf.norm tf.reduce_min/max/mean tf.argmax/argmin tf.equal tf.unique Vector norm Eukl. Norm \[ ||x||_2=|\sum_{k}x_k^2|^{\frac{1}{2}} \] Max.nor

    1.3K10发布于 2020-01-16
  • 来自专栏开源技术小栈

    2025年6月 PHP版本使用统计

    使用统计 目前使用的 PHP 版本的百分比。 这里已经省略了所有使用率不超过 1%的版本 以下是2024年1月至2025年6月PHP各版本的使用占比(仅展示使用率超1%的版本): 7.2:从2024年1月的2.5%降至2025年6月的1.6% 7.3 降至6.9% 8.0:从7.2%降至3.3% 8.1:从35.2%降至13.4% 8.2:先升至32.3%后降至24.8% 8.3:从6.4%快速升至34.0% 8.4:2025年1月首次出现5.1%,6月达 13.7% 可视化这些数据看起来是这样的 版本更新趋势分析 PHP 8.4的使用情况:发布半年后使用率为13.7%,低于前版本(如8.3同期16.7%、8.1为21.6%)。 可视化 PHP 的使用演变过程 开源包最低版本要求 分析Packagist上1000个热门包的最低PHP版本要求: 关键数据: 2025年6月,8.1和8.2版本的包数量分别为234和187个,8.3升至

    47700编辑于 2025-06-15
  • 来自专栏全栈程序员必看

    数据分析统计

    by OI.AMNT desc group by to_char(OI.CRETE_DATE,'yyyy-mm-dd hh24') order by c desc 按小时统计数据

    68320发布于 2021-05-19
  • 来自专栏机器学习与统计学

    Duke@coursera 数据分析与统计推断unit6introduction to linear regression

    unit conversions) properties (5) the correlation of X with Yis the same as of Y with X properties (6)

    61220发布于 2019-04-10
  • 来自专栏算法工程师的学习日志

    6.数据分析(1) --描述性统计量和线性回归(1)

    Matlab常用的描述性统计量函数和线性回归的基本应用。 ---- 1、Matlab常用描述性统计量 函数说明max最大值mean平均值或均值median中位数值min最小值mode出现次数最多的值,也就是常说的众数std标准差var方差,用于度量值的分散程度 1.1、计算最大值、均值和标准差 使用 MATLAB 函数计算一个 24×3 矩阵(称为 count)的描述性统计量。 MATLAB 为矩阵中的每列独立计算这些统计信息。 数据分析的时候,数据难免有异常值需要提出,比如NULL、NaN等,还有些点显著偏离了其他数据

    98920编辑于 2022-07-27
  • 来自专栏算法工程师的学习日志

    6.数据分析(1) --描述性统计量和线性回归(2)

    昨天分享了描述性统计量相关内容,今天把昨天剩下的部分写完, 昨天文章链接: 6.数据分析(1) --描述性统计量和线性回归(1) 前言:在针对非物理信号分析的时候,例如用户数、用户经常出入的地点、疾病感染人数等 ,这部分涉及到数据分析知识,本文分享一下Matlab常用的描述性统计量函数和线性回归的基本应用。 ---- 1、线性回归简介 数据模型明确描述预测变量与响应变量之间的关系。线性回归拟合模型系数为线性的数据模型。最常见的线性回归类型是最小二乘拟合,它可用于拟合线和多项式以及其他线性模型。 R2 用于度量模型能够在多大程度上预测数据,其值介于 0 和 1 之间。R2 的值越高,模型预测数据的准确性越高。 您可获得更接近数据的拟合,但代价是模型更为复杂,此时需要对该统计量R2进行改进,调整 R2 中包括了一项对模型中项数的罚值。因此,调整 R2 更适合比较不同的模型对同一数据的拟合程度。

    1K20编辑于 2022-07-27
  • 来自专栏数据处理

    考勤数据统计

    读取考勤数据 import pandas as pd myKq = pd.read_excel("kq.xlsx") myKq[u'打卡日期'].values array([u'2017-12-29 17 datetime.strptime(day, '%Y-%m-%d').weekday() if (week+1 == 5): colors[index] = 'r' elif (week+1==6 datetime.strptime(day, '%Y-%m-%d').weekday() if (week+1 == 1): colors[index] = 'r' elif (week+1==6

    2.4K30发布于 2018-06-01
  • 来自专栏Linux基础入门

    Pandas | 数据统计

    前言 本次我们介绍Pandas数据统计函数,如针对数值类型的统计(获取样本个数、平均值、标准差、极值等);针对非数值类型的统计(获取每个类型的个数)以及计算相关系数和协方差。 本文框架 0. 读取数据数据预处理 2. 汇总类统计 3. 获取唯一值与按值计数 4. 相关系数与协方差 0. 导入Pandas import pandas as pd 1. 读取数据数据预处理 # 读取数据 data = pd.read_csv(". 6行 data.head(6) # 返回结果 ymd bWendu yWendu tianqi fengxiang fengli aqi aqiInfo aqiLevel 0 # 数据统计 data.describe() # 返回结果 bWendu yWendu aqi aqiLevel count 365.000000

    1K10编辑于 2022-12-20
  • 来自专栏刷题笔记

    7-6 统计字符出现次数 (20 分)

    本文链接:https://blog.csdn.net/shiliang97/article/details/97867095 7-6 统计字符出现次数 (20 分) 本题要求编写程序,统计并输出某给定字符在给定字符串中出现的次数 ch; len++; ch = getchar(); } scanf("%c",&c); //输入要查找的字符 for (i = 0; i < len; i++) //查找字符并统计其出现次数

    4.3K30发布于 2019-11-08
  • 来自专栏大数据成长之路

    基于 flink 的电商用户行为数据分析【6】| APP市场推广统计

    前言 本篇是flink 的「电商用户行为数据分析」的第6篇文章,为大家带来的是市场营销商业指标统计分析之APP市场推广统计的内容,通过本期内容的学习,你同样能够学会处理一些特定场景领域下的方法 对于电商企业来说,一般会通过各种不同的渠道对自己的APP进行市场推广,而这些渠道的统计数据(比如,不同网站上广告链接的点击量、APP下载量)就成了市场营销的重要商业指标。 : 市场营销商业指标统计分析 APP市场推广统计 - - > 分渠道统计 */ object AppMarketingByChannel { // 定义一个输入数据的样例类 保存电商用户行为的样例类 : 市场营销商业指标统计分析 APP市场推广统计 - - > 不分渠道(总量)统计 */ object AppMarketingStatistics { // 定义一个输入数据的样例类 ---- 小结 本期关于介绍flink 电商用户行为数据分析之APP市场推广统计的文章就到这里,主要为大家介绍了在自定义数据源的基础上,如何分渠道和不分渠道计算APP市场推广的数据

    66810发布于 2021-01-27
  • 来自专栏PPV课数据科学社区

    【PPT】国家统计局:大数据统计

    【热门下载】 2015中国数据分析师行业峰会精彩PPT下载(共计21个文件) 关注PPV课微信菜单栏回复“2015数据分析师”即可下载 转自:数据

    1.8K40发布于 2018-04-24
  • 来自专栏Jed的技术阶梯

    013.Elasticsearch-6.x聚合统计REST API入门

    准备测试数据 PUT /shop/product/1 { "name": "Charcoal Toothpaste", "desc": "Travel-Friendly Daily Use 基本的聚合统计分析API 2.1 查询名称包含"Toothpaste"的商品并按照价格降序排序 GET /shop/product/_search { "query": { "match": ] }, "sort" : [ 25 ] } ] } } 2.2 分页查询,每页显示1条数据 "value" : 25.0 } } ] } } } 2.9 按照指定的价格范围进行分组,然后在每个分组内按照tag进行分组,然后统计每组的平均价格

    69530发布于 2020-07-01
  • 来自专栏老九学堂

    2020年6月全国程序员工资统计

    #平均工资 2020年6月全国招收程序员313739人。 2020年6月全国程序员平均工资14404元,工资中位数12500元,其中95%的人的工资介于5250元到35000元。 ? 2020年6月北京招收软件工程师23986人。2019年6月北京软件工程师平均工资19082元,工资中位数17500元,其中95%的人的工资介于7000元到45000元。 2020年6月上海招收软件工程师50209人。2019年6月上海软件工程师平均工资17382元,工资中位数15500元,其中95%的人的工资介于7000元到37500元。 2020年6月深圳招收软件工程师43810人。2019年6月深圳软件工程师平均工资16952元,工资中位数15000元,其中95%的人的工资介于7000元到37500元。 2020年6月杭州招收软件工程师16878人。2019年6月杭州软件工程师平均工资16454元,工资中位数15000元,其中95%的人的工资介于6701元到37500元。

    89630发布于 2020-06-17
  • 来自专栏菲宇

    Django 数据统计查询

    原文链接:https://www.cnblogs.com/jingqi/p/7425423.html Django 数据库抽象 API 描述了如何创建、检索、 但是在输了的数据中只会包含作者名和 average_rating 的统计。 你可以注意到 average_rating 在例子中显示地定义了。 缺省排序或 order_by() 子句的副作用 一个查询集中 order_by() 子句中的字段(或一个模型中缺省排序字段)会对输了数据产生影响,即使在 values() 中没有这些字段的定义时也同样会影响 但是在输了的数据中只会包含作者名和 average_rating 的统计。 你可以注意到 average_rating 在例子中显示地定义了。 缺省排序或 order_by() 子句的副作用 一个查询集中 order_by() 子句中的字段(或一个模型中缺省排序字段)会对输了数据产生影响,即使在 values() 中没有这些字段的定义时也同样会影响

    3K20发布于 2019-08-14
  • 来自专栏大数据&分布式

    Spark CBO统计数据

    统计信息 Spark 2.2 开始支持CBO优化,触发统计数据更新的时机如下: ANALYZE:AnalyzeTableCommand、AnalyzeColumnCommand; ALTER:AlterTableAddPartitionCommand Spark的元数据统计信息的获取有三种方式: 基于持久化的元数据metastore获取,目前仅支持Hive metastore; 基于InMemoryFileIndex,调用底层存储API(Hadoop Spark表统计有如下配置主键: spark.sql.statistics.totalSize:表数据文件总大小,单位byte; spark.sql.statistics.numRows:表数据总行数; ("table").count(); 字段统计信息:调用CommandUtils#computeColumnStats 封装执行,CommandUtils#computePercentiles 支持直方图统计各分段数据 (默认254分段),字段统计执行Spark Aggregate算子实现; 统计数据获取:获取表、分区信息会自动补充上统计数据信息; 统计数据更新:SessionCatalog#alterTableStats

    71396编辑于 2025-03-20
  • 来自专栏程序猿的大杂烩

    使用Hadoop统计日志数据

    用户行为日志概述 用户行为日志: 用户每次访问网站时所有的行为数据 访问、浏览、搜索、点击... 用户行为轨迹、流量日志(用户行为日志的其他名称) 为什么要记录用户访问行为日志: 进行网站页面的访问量的统计 分析网站的黏性 训练推荐系统 用户行为日志生成渠道: web服务器记录的web访问日志 ajax 离线数据处理流程: 数据采集 例如可以使用Flume进行数据的采集:将web日志写入到HDFS 数据清洗 可以使用Spark、Hive、MapReduce等框架进行数据的清洗,清洗完之后的数据可以存放在 HDFS或者Hive、Spark SQL里 数据处理 按照我们的需求进行相应业务的统计和分析 数据处理结果入库 结果可以存放到RDBMS、NoSQL数据数据的可视化展示 通过图形化展示的方式展现出来 /1.1" 200 813 "www.xxx.com" "-" cid=0×tamp=1478707261865&uid=2871142&marking=androidbanner&secrect=a6e8e14701ffe9f6063934780d9e2e6d

    1.5K20发布于 2020-09-23
  • 来自专栏Vamei实验室

    统计02:怎样描绘数据

    统计最开始的主要任务就是描述数据。正如我们在统计概述中提到的,群体的数据可能包含大量的数字,往往让人读起来头昏脑涨。电影《美丽心灵》中,数学家纳什不自觉地沉浸在一串数字中。 从物理的角度上来看,平均值和标准差所带的单位,都和原始数据相同。在多数统计案例中,大部分的群体数据会落在平均值加减一个标准差的范围内。 还有一些参数要通过对群体成员进行排序才能获得。 由于人们已经形成了约定俗成的数据绘图习惯,绘图方式上的过度创新甚至会误导读者。所以,这里出现的,也是经典的统计绘图形式。 quants.append(float(info[1])) print(quants) # make a square figure plt.figure(1, figsize=(6,6 总结 在这一篇文章里,我主要用参数和绘图呈现群体的数据。类似的方法还经常用于呈现样品数据。由于在描绘样品时需要涉及到统计推断,所以我把样品描绘的方法放在将在统计推断的相关文章中讲解。

    1.9K70发布于 2018-01-18
领券