首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏IT从业者张某某

    4-网站日志分析案例-日志数据统计分析

    文章目录 4-网站日志分析案例-日志数据统计分析 一、环境准备与数据导入 1.开启hadoop 2.导入数据 二、借助Hive进行统计 1.1 准备工作:建立分区表 1.2 使用HQL统计关键指标 总结 4-网站日志分析案例-日志数据统计分析 一、环境准备与数据导入 1.开启hadoop 如果在lsn等虚拟环境中开启需要先执行格式化 hadoop namenode -format 启动Hadoop start-dfs.sh -put /home/ubuntu/Code/part-r-00000 /sx/log2015_05_30 二、借助Hive进行统计 1.1 准备工作:建立分区表 HIVE 为了能够借助Hive进行统计分析 Sqoop导入到MySQL以及可视化展示部分不再介绍,详细可参考 https://www.cnblogs.com/edisonchou/p/4464349.html 总结 本文为网站日志分析案例的第4部分 ,基于MR清洗后的数据导入HIVE中,然后进行统计分析

    1.1K30编辑于 2022-11-12
  • 来自专栏临床试验

    统计分析篇-定量资料统计分析(2)

    上篇文章叙述到单样本定量资料与已知总体比较、单样本定量资料前后比较,同个个体两种检测方法(定量结果指标)比较的统计分析,这篇文章主要来叙述最常见应用最普遍的两独立样本t检验。 设n_1 和n_1 为两组样本含量,N=n_1+n_2 ,则T_1+T_2=\frac{N\left( N+1 \right)}{2} ,就是1+2+3+4+5+=\frac{5\left 当两总体分布相同时,两组的秩应该来自同一个总体,两组秩和分别跟\frac{N\left( N+1 \right)}{4} 相差不大。同样借助分布的知识来确定p值。

    2.4K30编辑于 2022-11-18
  • 来自专栏临床试验

    统计分析篇-定量资料统计分析(1)

    1.请阅读我在临床试验中,常常分不清楚所要分析的数据是什么资料类型,以及不明确用什么统计分析方法去分析自己手头上的数据。鉴于以往的数据分析经验,写成如下内容供参考。 某地区常规检测当地居民血常规指标,共检测36人血白细胞计数,其\bar{x} =6.79×10^9个/L,s =1.36×10^9个/L,现求该地区人群血白细胞的总体均数\mu 是否高于一般水平(4× 计算检验统计量:本例\mu _0 =4×10^9个/L,n =36,\bar{x} =6.79×10^9个/L,s =1.36×10^9个/Lt=\frac{\bar{x}-\mu _0}{s/ \sqrt{n}}=\frac{6.36-4}{1.36/\sqrt{36}}=10.411812.18,v=36-1=35确定p值,做出推断:t_{0.05,35}=1.69,t>1.69,p<0.05

    2.7K20编辑于 2022-11-16
  • 来自专栏数据科学CLUB

    Python统计分析

    描述性统计偏度和峰度累计值假设检验和区间估计示例1假设检验置信区间示例2假设检验置信区间

    1.2K10发布于 2020-07-14
  • 来自专栏优雅R

    「R」基本统计分析

    描述性统计分析 R基础包自带summary()函数用于获取描述性统计量,我们调用自带的车辆路试数据集mtcars进行下面相应的展示。 0.93341934 0.94325772 normtest.p 0.1228814 0.04880824 0.09265499 感觉这个函数统计很全面,基本涵盖了一般统计分析会涉及的基础量和显著性检验结果啊 ) + s <- sd(x) + skew <- sum((x-m)^3/s^3)/n + kurt <- sum((x-m)^4/ s^4)/n - 3 + return(c(n=n, mean=m, stdev=s, skew=skew, kurtosis=kurt))} > myvars <- c('mpg 1 57 Treated Male 27 Some 2 46 Treated Male 29 None 3 77 Treated Male 30 None 4

    2.1K10发布于 2020-07-06
  • 来自专栏用户3288143的专栏

    Pandas统计分析基础

    代码 # 1.Series的创建 # 通过列表创建,左侧自动带有索引 import pandas as pd obj = pd.Series([1, -2, 3, -4]) #仅有一个数组构成 print (obj) 0 1 1 -2 2 3 3 -4 dtype: int64 # 创建Series时指定索引 i = ["a", "c", "d", "a"] v = [2, 4, 5, 7] t = pd.Series(v, index = i, name = "col") print(t) a 2 c 4 d 5 a 7 Name: col, dtype: int64 # Series位置和标签的使用 val = [2, 4, 5, 6] idx1 = range(10, 14) idx2 = "hello the cruel world".split() ', 'n', 'y'] print(obj) b 4 ee 7 n -3 y -2 dtype: int64 DataFrame 创建 ?

    76410发布于 2020-07-07
  • 来自专栏YP小站

    Nginx 流量统计分析

    self.read_logascii_dict.items(), key=lambda k: (k[1][0])) return sorted_list_ascii # out [(4,

    5.5K20发布于 2020-06-04
  • 来自专栏机器学习与统计学

    《spss统计分析与行业应用案例详解》:实例4 列联表分析

    列联表分析过是通过分析多个变量再不同取值情况下的数据分布,从而进一步分析多个变量之间相权关系的一种描述性分析方法,列联表分析个少指定两个变量,分别为行变量和列变量,如果要进行分层分折,则还要现定层变量,通过列联表分析,不仅可以得到交又分组下的频数分布,还可以通过分析得到变量之间的相关关系。

    2.7K40发布于 2019-04-10
  • 来自专栏yiyun 的专栏

    多元统计分析:聚类分析

    中间距离法(median) 4. 类平均法(average) 5. 重心法(centroid) 6. 离差平方和法(Ward) 3. 聚类图 plot(hc) 4. 分类框 # 注意;分类框一定要与plot一起执行,因为是要 加在聚类图上 plot(hc);rect.hclust(hc, 4) # 分4类 加4分类框 5. 分类结果 cutree(hc, 4) # 分4类 显示分类结果 Q&A 补充 参考 《多元统计分析与R语言建模》(第五版)王斌会 本文作者: yiyun 本文链接: https://moeci.com/

    1.5K10编辑于 2022-04-01
  • 来自专栏生信探索

    Python基本统计分析

    常见的统计分析方法 import numpy as np import scipy.stats as spss import pandas as pd 鸢尾花数据集 https://github.com 0 # 4 63 69 72 # 5 3 0 0 # 6 4 6 74 # 8 0 0 103 pd.crosstab(mpg.cylinders, mpg.origin, margins = True) # origin europe japan usa All # cylinders # 3 0 4 0 4 # 4 63 69 72 204 # 5 3 0 0 3 # 6 4 6 74 84 # 8 0 0 103 103 # All 70 79 249 398 每个单元格占总数的比例 pd.crosstab( , normalize = 0) # origin europe japan usa # cylinders # 3 0.000000 1.000000 0.000000 # 4

    1.2K30编辑于 2023-03-25
  • 来自专栏YoungGy

    R语言_基本统计分析

    #基本统计分析 #整体描述性统计分析,针对数值变量 attach(mtcars) opar = par(no.readnoly=TRUE) d = mtcars[c("mpg","hp","wt")]

    1.4K20发布于 2019-05-26
  • 来自专栏Rust语言学习交流

    动态链接库统计分析

    动态链接库统计分析 Statistics on dynamic linking https://drewdevault.com/dynlib.html 你开发部署的程序比如一个普通的系统有经常用到动态链接库吗

    1.2K20发布于 2020-07-03
  • 来自专栏EAWorld

    微服务治理与统计分析

    4、应用实例组是平台中应用的实例分组,每个应用可以有1到多个应用实例分组,不同的应用实例组拥有独立的应用配置与管理能力,不同的应用实例组之间可以通过流控策略,实现应用的灰度发布能力。 4、API调用统计 ? API调用统计可以按照应用、实例组、实例、API来统计汇总请求信息,包括:响应状态码,请求数,最小响应时间,最大响应时间,平均响应时间以及响应时间总和。 4、限流 ? EOS现在的限流是对于每个应用实例独立计算,如设置每秒访问10次,一个应用有3个实例,则这3个实例每个都允许每秒访问10次。 以上向大家分享了普元EOS 8 微服务平台里治理与统计分析,希望对大家有所帮助。不足之处,也请多多指正。 精选提问: 问1:配置生效要重启应用吗?日志统计的实时性如何? 问4:数据共享安全管控中如何对非结构化的数据资源进行安全控制,如影像地图等,如何进行按地理区域来控制访问的权限及安全?

    1.2K62发布于 2019-09-19
  • 来自专栏yiyun 的专栏

    多元统计分析:判别分析

    Fisher 判别(线性判别) fd4 <- lda(G~x1+x2+x3+x4, d4_uni);fd4 print('------------------------------------') predict d4_uni$G);ftab4 # 判别矩阵 print('------------------------------------') sum(diag(ftab4))/sum(ftab4) # 判对率 非线性判别 qd4 <- qda(G~x1+x2+x3+x4,d4_uni) # 注意: 非线性判别使用 qda(),线性判别使用 lda() qtab4 <- table(predict(qd4 Bayes 判别 bd4 <- lda(G~x1+x2+x3+x4,d4_uni,prior=c(1,1)/2);bd4 print('--------------------------------- ---') btab4 <- table(predict(bd4)$class, d4_uni$G);btab4 # 判别矩阵 print('------------------------------

    76430编辑于 2022-04-01
  • 来自专栏高级程序设计

    【示例】文件行统计分析

    文件中的字符、数字、标点符号数量 4. 文件中的特定单词出现的数量 字符转换 1. 将文件中的所有字符转换为大(小)写 2. 将文件中一行的首字符变为大写 3. 将文件中每个单词的首字符变为大写 4. 将文件中一行的首字符变为大写 字符替换 1. 替换文件中的特定字符串 2. 删除文件中的特定字符串

    76911发布于 2020-03-03
  • 来自专栏百味科研芝士

    Endnote的文献统计分析

    4. 我们选择Year进行统计一下 ? 5. 此时,就统计出来了每年有多少个出版物 ? 6. 选择关键词统计一下 ? 7. 点击Record进行排序一下,就可以发现关键词的数目 ? 8.

    3.2K20发布于 2020-06-04
  • 来自专栏yiyun 的专栏

    多元统计分析:对应分析

    《多元统计分析与R语言建模》王斌会 《R语言实战》Robert I.

    1.3K20编辑于 2022-04-01
  • 来自专栏咻一咻

    最全的nginx日志统计分析

    '{print $1}' access.log|sort | uniq -c |wc -l 统计指定某一天访问IP统计UV cat access.log | grep "07/Apr/2019:0[4- |wc -l IP相关统计 统计IP访问量(独立ip访问数量) awk '{print $1}' access.log | sort -n | uniq | wc -l 查看某一时间段的IP访问量(4- 5点) grep "07/Apr/2019:0[4-5]" access.log | awk '{print $1}' | sort | uniq -c| sort -nr | wc -l 查看访问最频繁的前 access.log |cut -c 14-21|sort|uniq -c|sort -nr|head -n 100 统计每分钟的请求数,top100的时间点(精确到分钟) awk '{print $4} "$4}' | sort | uniq -c | sort -nr

    8.3K21发布于 2020-06-19
  • 来自专栏大数据成神之路

    实时统计分析系统-Apache Druid

    Druid简介: Druid是一个为在大数据集之上做实时统计分析而设计的开源数据存储。 比如不能处理嵌套结构的数据 Druid使用场景: 1:适用于清洗好的记录实时录入,但不需要更新操作 2:支持宽表,不用join的方式(换句话说就是一张单表) 3:可以总结出基础的统计指标,可以用一个字段表示 4

    2.8K20发布于 2020-06-04
  • 来自专栏EpiHub

    临床数据统计分析-shiny

    在整理好数据后,需要借助统计软件去计算统计学参数,譬如卡方值,t值,f值,但是在进行统计分析时候,往往会有各种条件限制。 下面来介绍一款可以在线分析的临床统计shiny网页。 点击进去即可操作。 主要包括: 1.数据描述 2.相关性分析 3.连续性变量分析 4.计数资料分析 只要上传数据,即可得出分析结果,也不用考虑应用条件,给出指标让你自己选择。操作简单方便。

    97710编辑于 2022-10-25
领券