首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏vivo互联网技术

    探究Presto SQL引擎(4)-统计计数

    二、基数统计主要算法在SQL语法里面,基数统计对应到count(distinct field)或者aprox_distinct()。通常做精确计数统计需要用到Set这种数据结构。 2.3 HyperLogLog算法HyperLogLog简称HLL算法,它有如下的特点:可以实现由极小的内存开销统计出巨量的数据。 在 Redis中实现的HyperLogLog,只需要12K内存就能统计2^64个数据。可以方便实现分布式扩展。 例如:执行了10轮,可能的结果如下:3,1,4,1,1,2,3,4,1,1执行了100轮,可能的结果如下:1,1,2,1,1,2,1,4,2,1,3,1,1,1,1,3,1,2,1,1,2,4,2,3,2,1,1,1,3,1,2,2,6,1,2,4,1,2,2,1,1,3,1,1,1,1,1,1,1,1,1,4,2,1,1,1,1,1,3,1,2,4,4,4,1,3,2,1,5,1,1,1,1,1,1,1,5,1,1,7,1,1,4,1,3,2,1,1,5,2,1,1,5,2,1,1,4,1,1,1 实现过程中还有一个很有意思的细节:基于待统计数据量,实现中同时采用了Linear Count算法和HyperLogLog算法。

    1.6K20编辑于 2022-11-01
  • 来自专栏python3

    数据统计

    tf.sqrt(tf.reduce_sum(tf.square(a))) <tf.Tensor: id=16, shape=(), dtype=float32, numpy=2.0> a = tf.ones([4, 28, 28, 3]) a.shape TensorShape([4, 28, 28, 3]) tf.norm(a) <tf.Tensor: id=25, shape=(), dtype=float32 , dtype=float32)> reduce_min/max/mean reduce,操作可能会有减维的功能,如[2,2],对行求max,会变成[2] a = tf.random.normal([4, int32)>) a = tf.constant([4, 2, 2, 4, 3]) a <tf.Tensor: id=226, shape=(5,), dtype=int32, numpy=array( [4, 2, 2, 4, 3], dtype=int32)> res = tf.unique(a) Unique(y=<tf.Tensor: id=228, shape=(3,), dtype=int32

    1.3K10发布于 2020-01-16
  • 来自专栏涛的程序人生

    【matplotlib】4-完善统计图形

    完善统计图形 1 添加图例和标题 在绘图区域中可能会出现多个图形,而这些图形如果不加以说明,观察者则很难识别出这些图形的主要内容。因此,我们需要给这些图形添加标签说明,用以标记每个图形所代表的的内容。 = ["面粉", "砂糖", "奶油", "草莓酱", "坚果"] weight = [40, 15, 20, 10, 15] colors = ["#e41a1c", "#377eb8", "#4daf4a 如果可以根据具体的数据结构和数据形式采用合适的刻度标签样式,那么不仅可以将数据本身的特点很好的地展示出来,还可以让可视化效果变得更加理想。 通过matplotlib可以绘制精美的统计图形,数据可视化的主要作用就是直观地解释数据,以使观察者可以发现数据背后的规律或者变化趋势。 有时为了更加全面地凸显数据的规律和特点,需要将统计图形和数据表格结合使用。

    3.6K20编辑于 2023-05-09
  • 来自专栏IT从业者张某某

    4-网站日志分析案例-日志数据统计分析

    文章目录 4-网站日志分析案例-日志数据统计分析 一、环境准备与数据导入 1.开启hadoop 2.导入数据 二、借助Hive进行统计 1.1 准备工作:建立分区表 1.2 使用HQL统计关键指标 总结 4-网站日志分析案例-日志数据统计分析 一、环境准备与数据导入 1.开启hadoop 如果在lsn等虚拟环境中开启需要先执行格式化 hadoop namenode -format 启动Hadoop start-dfs.sh start-yarn.sh 查看是否启动 jps 2.导入数据数据上传到hadoop集群所在节点 创建hdfs目录 hadoop fs -mkdir -p /sx/cleandlog 将数据上传到 1.1 准备工作:建立分区表 HIVE 为了能够借助Hive进行统计分析,首先我们需要将清洗后的数据存入Hive中,那么我们需要先建立一张表。 ,基于MR清洗后的数据导入HIVE中,然后进行统计分析。

    1.1K30编辑于 2022-11-12
  • 来自专栏机器学习、深度学习

    统计学习导论 Chapter4--Classification

    4.3.2 Estimating the Regression Coefficients 公式(4.2)中的参数 β0 和 β1 是未知的,必须通过训练数据来估计。 maximum likelihood 方法,最大似然方法用于 logistic regression model 拟合背后的 intuition 是:我们寻找这样的 β0 和 β1,它们能够使得我们观测到每个数据的 就是对每个观测的数据预测的类别都很接近真值,用估计的 β0 和 β1 对应的模型可能很好的拟合所有的训练数据。 模型的拟合可以通过统计软件包里的相关函数很容易实现,所以我们不需要关注其拟合细节。

    67560发布于 2018-01-03
  • 来自专栏Java Web

    Reids(4)——神奇的HyperLoglog解决统计问题

    一、布隆过滤器简介 上一次 我们学会了使用 HyperLogLog 来对大数据进行一个估算,它非常有价值,可以解决很多精确度不高的统计需求。 实际上,如果历史记录存储在关系数据库里,去重就需要频繁地对数据库进行 exists 查询,当系统并发量很高时,数据库是很难抗住压力的。 (integer) 0 127.0.0.1:6379> bf.madd codehole user4 user5 user6 1) (integer) 1 2) (integer) 1 3) (integer ) 1 4) (integer) 0 上面使用的布隆过过滤器只是默认参数的布隆过滤器,它在我们第一次 add 的时候自动创建。 ——神奇的HyperLoglog解决统计问题 - https://www.wmyskxz.com/2020/03/02/reids-4-shen-qi-de-hyperloglog-jie-jue-tong-ji-wen-ti

    91320发布于 2020-03-20
  • 来自专栏全栈程序员必看

    数据分析统计

    'yyyy-mm-dd hh24:mi:ss') and to_date('2011-08-07 00:00:00','yyyy-mm-dd hh24:mi:ss') and OI.STAS=4 by OI.AMNT desc group by to_char(OI.CRETE_DATE,'yyyy-mm-dd hh24') order by c desc 按小时统计数据

    68320发布于 2021-05-19
  • 来自专栏小小挖掘机

    数据分析EPHS(4)-使用Excel和Python计算数列统计

    1、数据介绍 这里咱们使用的是iris分类数据集,数据下载地址为: http://archive.ics.uci.edu/ml/datasets/Iris 下载后转换为xlsx格式的文件,数据如下: ? 也可以在公众号后台回复 “iris” 下载相应数据。 2、使用Excel计算统计值 咱们一个个来哈,在使用过程中还是学到了很多东西的,如果你都会了,也建议你看一下,嘻嘻! 在上面的数据中,如果只计算4个数字的总体标准差,结果当然是0,因为四个数字都是2,所以STDEV.P的结果是0,但是STDEVPA的结果却不是0,因为这个函数将文本和逻辑值False当作0处理,把逻辑值 2.3 中位数 在Excel统计一列或者指定单元格区间的中位数,直接使用MEDIAN函数即可: =MEDIAN(A2:A151) 中位数的计算方法,如果数据量的个数为奇数的话,就是中间的一个数,如果数据量个数为偶数个的话 这里已经有最大值、最小值、平均值、四分位数等数据,而这里的标准差是样本标准差,所以我们还需要统计中位数和总体标准差: irisdf_describe = irisdf.describe() print(

    2.7K20发布于 2019-07-12
  • 来自专栏人人都是数据分析师

    统计学(4)|AB测试—实验流程

    分析现状:针对当前产品情况,根据业务数据,提出优化方案(一般由数据分析师和产品经理确定)。 确定评估指标:确定衡量优化效果的指标(如:CTR,停留时长等)。 设计与开发:确定优化版本的设计原型,并完成技术实现(通常与数据分析师无关)。 分配流量:确定实验分层分流方案,以及实验需要切分多少流量,一般根据最小样本量确定。 采集并分析数据:提取实验数据,对实验结果进行分析。 根据试验结果,确定是否推广到全量或者是调整之后继续实验。 了解了整体的流程之后,我们对其中一些比较关键的地方做进一步的阐述。 : 其中,两组样本量之比为 统计功效的计算公式为: (2)比例类 均值类假设检验形式通常为: 故对应的样本量计算公式为: 统计功效的计算公式为: 4实验有效天数 实验的有效天数的确定需要考虑两个因素 5实验结果分析 此部分内容我们在上一篇文章中有了非常详尽的叙述,有兴趣的可以参考: 统计学(3)|AB测试—实验结果分析

    1.6K10发布于 2021-05-13
  • 来自专栏深度学习和计算机视觉

    【从零学习OpenCV 4】图像像素统计

    经过几个月的努力,小白终于完成了市面上第一本OpenCV 4入门书籍《从零学习OpenCV 4》。 我们可以将数字图像理解成一定尺寸的矩阵,矩阵中每个元素的大小表示了图像中每个像素的亮暗程度,因此统计矩阵中的最大值,就是寻找图像中灰度值最大的像素,计算平均值就是计算图像像素平均灰度,可以用来表示图像整体的亮暗程度 因此针对矩阵数据统计工作在图像像素中同样具有一定的意义和作用。在OpenCV 4中集成了求取图像像素最大值、最小值、平均值、均方差等众多统计量的函数,接下来将详细介绍这些功能的相关函数。 对于坐标中x、y、z轴的具体数据,可以通过变量的x、y、z属性进行访问,例如Point.x可以读取坐标的x轴数据。 Mat类型变量,变量中的数据个数与第一个参数通道数相同,如果输入图像只有一个通道,该函数求取的平均值和标准方差变量中只有一个数据

    2.1K10发布于 2019-11-22
  • 来自专栏Java那些事

    Reids(4)——神奇的HyperLoglog解决统计问题

    这样每来一个请求,就执行 INCRBY 指令一次,最终就可以统计出所有的 PV 数据了。 但是 UV 不同,它要去重,同一个用户一天之内的多次访问请求只能计数一次。 set 集合更好的解决方案: 第一种:B 树 B 树最大的优势就是插入和查找效率很高,如果用 B 树存储要统计数据,可以快速判断新来的数据是否存在,并快速将元素插入 B 树。 可以简单做一个计算,如果要统计 1 亿 个数据的基数值,大约需要的内存:100_000_000/ 8/ 1024/ 1024 ≈ 12 M,如果用 32 bit 的 int 代表 每一个 统计数据,大约需要内存 统计一个对象的基数值就需要 12 M,如果统计 1 万个对象,就需要接近 120 G,对于大数据的场景仍然不适用。 概率算法 不直接存储 数据集合本身,通过一定的 概率统计方法预估基数值,这种方法可以大大节省内存,同时保证误差控制在一定范围内。

    79420发布于 2020-03-13
  • 来自专栏数据处理

    考勤数据统计

    读取考勤数据 import pandas as pd myKq = pd.read_excel("kq.xlsx") myKq[u'打卡日期'].values array([u'2017-12-29 17

    2.4K30发布于 2018-06-01
  • 来自专栏Linux基础入门

    Pandas | 数据统计

    前言 本次我们介绍Pandas数据统计函数,如针对数值类型的统计(获取样本个数、平均值、标准差、极值等);针对非数值类型的统计(获取每个类型的个数)以及计算相关系数和协方差。 本文框架 0. 读取数据数据预处理 2. 汇总类统计 3. 获取唯一值与按值计数 4. 相关系数与协方差 0. 导入Pandas import pandas as pd 1. 读取数据数据预处理 # 读取数据 data = pd.read_csv(". 28 优 1 3 2018-01-04 0℃ -8℃ 阴 东北风 1-2级 28 优 1 4 # 数据统计 data.describe() # 返回结果 bWendu yWendu aqi aqiLevel count 365.000000

    1K10编辑于 2022-12-20
  • 来自专栏AI那点小事

    10-排序4 统计工龄 (20分)

    输入首先给出正整数NN(\le 10^5≤10 ​5 ​​ ),即员工总人数;随后给出NN个整数,即每个员工的工龄,范围在[0, 50]。

    52310发布于 2020-04-18
  • 来自专栏机器学习与统计学

    Duke@coursera 数据分析与统计推断 unit4 inference for numerical variables

    estimating the difference between pairedmeans:

    72430发布于 2019-04-10
  • 来自专栏PPV课数据科学社区

    【PPT】国家统计局:大数据统计

    【热门下载】 2015中国数据分析师行业峰会精彩PPT下载(共计21个文件) 关注PPV课微信菜单栏回复“2015数据分析师”即可下载 转自:数据

    1.8K40发布于 2018-04-24
  • 来自专栏育种数据分析之放飞自我

    R语言进阶笔记4 | dplyr 汇总统计

    相关的统计参数: 最大值 最小值 极差 平均值 标准差 变异系数 2. 模拟数据 首先,我模拟一个20行5列的数据框,每一列都是数值的数据类型。 然后使用apply函数,对数据框的列进行操作 最后返回汇总统计的结果 该函数的对象为一个由变量组成的数据框,数据类型都要是数值 3.2 函数测试 > huizong(dat) Max 更简单的方法 5.1 查看数据 tidyverse这个包,要分析的都是长数据,而不是宽数据,所以我们将其转化为长数据进行分析,会更方便快捷。 这里,我们所要分析的是y1,y2,y3,y4,y5的汇总统计结果,所以将其转化为数据,使用tidyr中的pivot_longer进行转化: > d1 = pivot_longer(dat,1:5,names_to V4 100. 5 V5 100. 6 V1 99.8 5.3 汇总统计 然后使用group_by函数,和summarise函数,进行汇总统计: d1 %>% group_by

    1.4K10发布于 2021-01-12
  • 来自专栏菲宇

    Django 数据统计查询

    原文链接:https://www.cnblogs.com/jingqi/p/7425423.html Django 数据库抽象 API 描述了如何创建、检索、 但是在输了的数据中只会包含作者名和 average_rating 的统计。 你可以注意到 average_rating 在例子中显示地定义了。 缺省排序或 order_by() 子句的副作用 一个查询集中 order_by() 子句中的字段(或一个模型中缺省排序字段)会对输了数据产生影响,即使在 values() 中没有这些字段的定义时也同样会影响 但是在输了的数据中只会包含作者名和 average_rating 的统计。 你可以注意到 average_rating 在例子中显示地定义了。 缺省排序或 order_by() 子句的副作用 一个查询集中 order_by() 子句中的字段(或一个模型中缺省排序字段)会对输了数据产生影响,即使在 values() 中没有这些字段的定义时也同样会影响

    3K20发布于 2019-08-14
  • 来自专栏大数据&分布式

    Spark CBO统计数据

    解析流程 Spark SQL解析流程概述为: SQL语句基于ANTLR4编译解析成AST树,SparkSqlParser#parse通过Visitor访问者模式遍历解析AST树,生成Unresolved Spark的元数据统计信息的获取有三种方式: 基于持久化的元数据metastore获取,目前仅支持Hive metastore; 基于InMemoryFileIndex,调用底层存储API(Hadoop Spark表统计有如下配置主键: spark.sql.statistics.totalSize:表数据文件总大小,单位byte; spark.sql.statistics.numRows:表数据总行数; ("table").count(); 字段统计信息:调用CommandUtils#computeColumnStats 封装执行,CommandUtils#computePercentiles 支持直方图统计各分段数据 (默认254分段),字段统计执行Spark Aggregate算子实现; 统计数据获取:获取表、分区信息会自动补充上统计数据信息; 统计数据更新:SessionCatalog#alterTableStats

    71396编辑于 2025-03-20
  • 来自专栏Vamei实验室

    统计02:怎样描绘数据

    统计最开始的主要任务就是描述数据。正如我们在统计概述中提到的,群体的数据可能包含大量的数字,往往让人读起来头昏脑涨。电影《美丽心灵》中,数学家纳什不自觉地沉浸在一串数字中。 从物理的角度上来看,平均值和标准差所带的单位,都和原始数据相同。在多数统计案例中,大部分的群体数据会落在平均值加减一个标准差的范围内。 还有一些参数要通过对群体成员进行排序才能获得。 由于人们已经形成了约定俗成的数据绘图习惯,绘图方式上的过度创新甚至会误导读者。所以,这里出现的,也是经典的统计绘图形式。 ) if info[3][-1] == 'W': lon = -lon + 360.0 lons.append(lon) country = info[4] 总结 在这一篇文章里,我主要用参数和绘图呈现群体的数据。类似的方法还经常用于呈现样品数据。由于在描绘样品时需要涉及到统计推断,所以我把样品描绘的方法放在将在统计推断的相关文章中讲解。

    1.9K70发布于 2018-01-18
领券