首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏数据科学与人工智能

    统计学习】统计学教会我们的10件事

    在数据统计中,有10个概念与大数据分析密切相关。这10个概念聚焦在数据预测准确性,交互分析等方面。 在之前的帖子中,我曾指出大数据中一个关键问题,即忽略了应用统计学。 但是许多应用统计学中犀利的概念确实与大数据分析密不可分。为此,我觉得我得回答我上一贴的第二个问题:“当我们在思考大数据时代时,我们到底理解了哪些统计学概念?” 当你拥有空间、距离或时间测量数据时,你需要使其变为平滑曲线 这是统计学里最老生常谈的概念之一(回归是一个平滑的形式,Galton早已将其普及化)。 应用统计学教会我们的一件事就是:当发现结果与现实严重偏差时,请更改你的标准。所以当你发现相关关系时,不要以为你可以预测一个新结果或已发现了一个因果关系。 9. 10. 问题在先方案在后 应用统计学中的诱惑之一就是用你熟知的一个工具(回归)去解决所有问题(流行病问题)。

    88460发布于 2018-02-26
  • 来自专栏JavaPark

    华为机试:10. 字符个数统计

    题目 10. 字符个数统计 2. 描述 编写一个函数,计算字符串中含有的不同字符的个数。字符在ACSII码范围内(0~127),换行表示结束符,不算在字符里。不在范围内的不作统计。 java.util.Scanner; /** * @author : cunyu * @version : 1.0 * @className : Ten * @date : 2020/8/10 23:56 * @description : 10. 字符个数统计 */ public class Main { public static void main(String[] args) { Scanner input =

    63920编辑于 2022-06-15
  • 来自专栏Qt项目实战

    Qt开源作品10-代码统计组件

    一、前言 代码行数统计主要用来统计项目中的所有文件的代码行数,其中包括空行、注释行、代码行,可以指定过滤拓展名,比如只想统计.cpp的文件,也可以指定文件或者指定目录进行统计。 写完这个工具第一件事情就是统计了一下自己写过的最大的项目大概多少行代码,看下是不是传说中的一行代码一块钱,这个最大的项目从2010年开始的,到现在差不多快10年了,是自己在现在公司写过的最大的项目,一直在升级更新完善 ,途中重构过两次,大的结构改动,统计了下好像有15W行左右的代码,纯代码大概在10W,其余是空行和注释行,着实把自己吓了一跳,还算是中型项目了,然后又统计了下自定义控件的所有代码,我勒个去,总代码23W 主要功能: 可分别统计代码行/空行/注释行 支持指定过滤拓展名 支持指定文件或者指定目录进行统计 分步显示统计结果,不卡主界面 分别展示每个统计过的文件的大小/总行数/代码行数等 二、代码思路 void lineBlank; if (i % 100 == 0) { qApp->processEvents(); } } //显示统计结果

    82950发布于 2020-05-15
  • 来自专栏生信技能树

    统计10讲之示例数据

    本来有statquest珠玉在前,我实在是提不起笔和勇气写统计学专题,但是最近直播单细胞转录组数据分析发现这系列知识点实在是太重要,而我的习惯是,讲不清楚的知识点不认为自己掌握了,所以还是尝试着介绍一波 生物统计学专题 -StatQuest教学视频学习笔记 统计基础 统计学其实可以分为两大类: 描述性统计,充分了解你的数据,分析数据的集中趋势和离散趋势等统计学指标并且可视化 推断统计学,根据样本数据去推断总体数量特征的方法 它是在对样本数据进行描述的基础上,对统计总体的未知数量特征做出以概率形式表述的推断。 数据总体来说可以分为以下三种类型: 分类数据,又名定性数据或者品质数据。 顺序数据。 0 ## [3,] 0 0 0 0 0 0 ## [4,] 10 是利用数据中的五个统计量:最小值、第一四分位数、中位数、第三四分位数与最大值来描述数据的一种方法,它也可以粗略地看出数据是否具有有对称性,分布的分散程度等信息,特别可以用于对几个样本的比较。

    1.2K41发布于 2019-05-08
  • 来自专栏AI那点小事

    10-排序4 统计工龄 (20分)

    输入格式: 输入首先给出正整数NN(\le 10^5≤10 ​5 ​​ ),即员工总人数;随后给出NN个整数,即每个员工的工龄,范围在[0, 50]。 输入样例: 8 10 2 0 5 7 2 5 2 输出样例: 0:1 2:3 5:2 7:1 10:1 ---- AC代码: #include <iostream> #include

    52310发布于 2020-04-18
  • 来自专栏奔跑的人生

    存储过程-统计10年热点关键词

    [Proc_HotAndFutrueKeywords] Script Date: 02/05/2013 10:02:26 ******/ 4 SET ANSI_NULLS ON 5 GO QUOTED_IDENTIFIER ON 7 GO 8 -- ================================================ 9 -- Proc Function : 研究热点和趋势统计存储过程 10 -- Create Date : 2013-02-01 11 -- Update Date : 2012-02-01 12 -- Create User : IsaacZhang 13 -- Update User : IsaacZhang 14 -- Description : 研究热点和趋势统计数据 15 -- Parameter : 16 -- = AmpliFactor decimal(18, 2) 37 ) 38 --定义要输出的所有年份 39 DECLARE @YearCount INT 40 SET @YearCount = 10

    34830发布于 2019-09-10
  • ​场景题:10亿QQ用户,如何统计在线人数?

    今天继续介绍Java面试常见的场景题:在线人数统计现在用户数量是亿级,如何统计在线人数有多少?场景分析QQ用户就是亿级的场景,我们如果使用常规的数据库解决方案是不能满足要求的。 例如:在数据库中给每个QQ用户添加一个状态,上线为1,下线为0,然后统计状态为1的数据总量,就能获取在线人数了。 反之,值为0表示下线统计在线人数,只需要统计1的个数即可内存占用分析10亿QQ号,位数组的空间位是10亿,占用内存大小为:10亿 * 1bit / 8 / 1024 / 1024 = 119.2MB,分析得出占用的内存非常小具体实现上一篇写了 GETBIT key offset 判断用户是否在线 GETBIT online_users 10086 → 返回1 BITCOUNT key 统计在线总人数

    89910编辑于 2025-03-05
  • 来自专栏网安信息

    关于SSL证书10统计数据

    为了更好地查看 HTTPS 的普及情况,我们可以通过SSL 证书的10统计数据来了解。 stats-about-SSL-certificates.jpg 1. 这其中Let's Encrypt就发行了超过10亿张免费DV SSL证书。然而,当您根据证书类型带来的流量份额时,就可以看出高流量网站是需要企业级SSL证书。 5. 59.4%的网站未遵循最佳安全实践 根据SSL Pulse统计,一个用于监控Alexa排名前15万的最受欢迎网站的SSL/TLS质量的控制面板显示,其中有59.4%的网站未遵循SSL部署最佳安全实践 尝试各种可能的组合需要数十亿年的时间,但10亿个 GPU 将需要世界上 30% 的核电站来提供电力,否则破解加密证书只是一个白日梦。 本文来源锐成信息,转载地址:https://www.racent.com/blog/top-10-stats-about-ssl-certificates

    1.2K00发布于 2021-10-22
  • 来自专栏算法channel

    统计10个必知问题 (附答案)

    答:(定义)构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目。用df表示。 4、问:统计学意义(P值) 答:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。 结果 0.05≥P>0.01被认为是具有统计学意义,而0.01≥P≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。 6、问:所有的检验统计都是正态分布的吗? 在这个前提下,假设检验按下列步骤进行: 1)确定假设; 2)进行抽样,得到一定的数据; 3)根据假设条件下,构造检验统计量,并根据抽样得到的数据计算检验统计量在这次抽样中的具体值; 4)依据所构造的检验统计量的抽样分布 10、问:如何比较两组数据之间的差异性 答:从三个方面来回答, 1)设计类型是完全随机设计两组数据比较,不知道数据是否是连续性变量?

    66020发布于 2019-12-05
  • 来自专栏从ORACLE起航,领略精彩的IT技术。

    Oracle 10g收集数据库统计信息

    如果统计信息不准确甚至是错误,会导致优化器选择错误SQL执行计划的概率大大增加。 目前计划对该数据库统计信息进行重新收集,因为生产环境的复杂性,不排除重新收集正确的统计信息后,整体性能反而下降的情况。 故而在收集之前需要对原有的统计信息做好备份,如发现收集后性能反而下降的极端情况,也可以快速回退到原有的统计信息。 2.实施步骤 **2.1备份当前数据库统计信息** 备份当前数据库的统计信息,建议备份后再导出一份留存: --备份当前数据库的统计信息: begin DBMS_STATS.CREATE_STAT_TABLE 收集数据库的统计信息,需要在业务闲时操作: --开启计时 set timing on --开始收集全库统计信息 begin dbms_stats.gather_database_stats( ESTIMATE_PERCENT **3.1正常回退** 收集统计信息后发现性能大幅下降,正常回退,直接将原统计信息导入: --正常回退,直接将原统计信息导入: exec DBMS_STATS.IMPORT_DATABASE_STATS

    68010编辑于 2022-05-06
  • 来自专栏程序猿DD

    2020 年 10 月程序员工资统计,终于涨了!

    来源:blog.csdn.net/juwikuang/article/details/108903665 2020年10月全国招收程序员362409人。 2020年10月全国程序员平均工资14459元,工资中位数12500元,其中95%的人的工资介于5250元到35000元。 工资与上个月持平,但是岗位有所增加,也许这也是经济复苏的信号。 12500 25000 4003 1.23% 8 苏州 13072 5500 12500 27152 9627 2.97% 9 成都 12617 3750 12000 30000 17567 5.41% 10

    39020编辑于 2023-04-04
  • 来自专栏大数据文摘

    【译】统计学教会我们的10件事

    作者|Jeff Leek 翻译|任然 校对|罗双英 在数据统计中,有10个概念与大数据分析密切相关。这10个概念聚焦在数据预测准确性,交互分析等方面。 在之前的帖子中,我曾指出大数据中一个关键问题,即忽略了应用统计学。但是许多应用统计学中犀利的概念确实与大数据分析密不可分。 为此,我觉得我得回答我上一贴的第二个问题:“当我们在思考大数据时代时,我们到底理解了哪些统计学概念?” 鉴于网络总是喜欢列“前十名单”,那我也就列出十个概念。 10. 问题在先方案在后 应用统计学中的诱惑之一就是用你熟知的一个工具(回归)去解决所有问题(流行病问题)。 素材来源: http://simplystatistics.org 作者简介: JeffLeek,约翰霍普金斯大学教授,进行统计学研究,撰写数据分析软件,建立数据集,编写统计学数据博客,以及与了不起的同学一起做一些创意性工作

    51490发布于 2018-05-21
  • 来自专栏笔记+

    container_cpu_load_average_10s是如何统计

    有业务反馈监控基于container_cpu_load_average_10s监控指标在无业务流量的pod统计到的值一直在0-1之间波动,想了解下这里的原因,监控的计算公式为:max by (pod)  (container_cpu_load_average_10s{container! 默认值为10,写一段小代码直接代入相关数字算出cont.loadDecay值。 / 10)) fmt.Print(x, "'s exponential value is ",(1.0-x)) } [root@VM-10-5-centos goproject]# go msg.Data = attributes return msg } 内核收到cadvisor发送的request消息后,会根据cmd值CGROUPSTATS_CMD_ATTR_FD 统计容器对应

    1.3K30编辑于 2024-04-23
  • 来自专栏数据分析1480

    10个必知必会的统计学问题 (附答案)

    答:(定义)构成样本统计量的独立的样本观测值的数目或自由变动的样本观测值的数目。用df表示。 4、问:统计学意义(P值) 答:结果的统计学意义是结果真实程度(能够代表总体)的一种估计方法。 结果 0.05≥P>0.01被认为是具有统计学意义,而0.01≥P≥0.001被认为具有高度统计学意义。但要注意这种分类仅仅是研究基础上非正规的判断常规。 6、问:所有的检验统计都是正态分布的吗? 在这个前提下,假设检验按下列步骤进行: 1)确定假设; 2)进行抽样,得到一定的数据; 3)根据假设条件下,构造检验统计量,并根据抽样得到的数据计算检验统计量在这次抽样中的具体值; 4)依据所构造的检验统计量的抽样分布 10、问:如何比较两组数据之间的差异性 答:从三个方面来回答, 1)设计类型是完全随机设计两组数据比较,不知道数据是否是连续性变量?

    2.3K20发布于 2019-12-09
  • 来自专栏生信情报站

    从零开始学统计 10 | 通俗易懂的 P 值

    这个是为了检测是否需要增加样本量,排除是否因为抽样问题造成统计误差。 致谢: https://www.youtube.com/channel/UCtYLUTtgS3k1Fg4y5tAhLbw

    2.1K10发布于 2021-01-12
  • 来自专栏林德熙的博客

    win10 uwp 开发 CSDN 访问量统计 源代码

    我想得到我CSDN博客的阅读量,那么我应该做一个软件,这个软件可以查看当前的 csdn 博客访问量 界面 启动界面 启动完成输入需要统计的博客的网址 代码 看界面很简单,就一个List做的 主要技术是爬虫 我们先做一个TextBox放博客地址 <TextBox Margin="<em>10</em>,<em>10</em>,<em>10</em>,<em>10</em>" Header="博客地址" PlaceholderText="http://blog.csdn.net PostCollection.Add(post); }); } } 现在我使用的方法是 asp dotnet core 通过图片<em>统计</em>

    54720编辑于 2022-08-12
  • 来自专栏机器学习与统计学

    统计学最重要的10个概念【附Pyhon代码解析】

    统计学最重要的10个概念【附代码解析】 1. 平均值 平均值是一组数据的算术平均数,计算方法是将所有数值相加后除以数据的总数。它是最常用的集中趋势度量,但容易受极端值影响。 假设检验 假设检验用于判断样本数据是否支持某个统计假设。t检验是常用的假设检验方法之一,用于比较两组数据的均值是否有显著差异。 : 0.5389739816775366 p值: 0.5981762652904399 p值大于0.05,表示两组数据的均值差异不具有统计学显著性。 10. 抽样分布 抽样分布描述统计量(如样本均值)在重复抽样中的分布情况。中心极限定理指出,当样本量足够大时,样本均值的抽样分布近似服从正态分布。 通过这些详细的解释和代码示例,您应该能更深入地理解这10个重要的统计学概念。这些概念为数据分析和科学研究提供了坚实的基础。

    70610编辑于 2024-09-12
  • 来自专栏编程

    当今最火10统计算法,你用过几个?

    此外,统计学习也是一个很有意思的研究领域,在科学、工业和金融领域都有重要的应用。最后,统计学习是训练现代数据科学家的基础组成部分。 10统计技术,帮助数据科学家更加高效地处理大数据集的统计技术。 在此之前,我想先厘清统计学习和机器学习的区别: 机器学习是偏向人工智能的分支。 统计学习方法是偏向统计学的分支。 机器学习更侧重大规模应用和预测准确率。 统计学习侧重模型及其可解释性,以及精度和不确定性。 二者之间的区别越来越模糊。 1. 线性回归 在统计学中,线性回归通过拟合因变量和自变量之间的最佳线性关系来预测目标变量。 10. 无监督学习 目前为止,我们都只讨论过监督学习技术,其中数据分类都是已知的,且提供给算法的经验都是实体和其分类的关系。当数据的分类是未知的时候,就需要使用另一种技术了。

    6.7K00发布于 2017-12-27
  • 来自专栏数据小魔方

    左手用R右手Python系列10——统计描述与列联分析

    数据统计描述与列联表分析是数据分析人员需要掌握的基础核心技能,R语言与Python作为优秀的数据分析工具,在数值型数据的描述,类别型变量的交叉分析方面,提供了诸多备选方法。 " summary(diamonds[myvars]) #描述性统计(数值型) ? 除此之外,doBy包中的summaryBy函数和psych包中的describeBy函数也提供了更为个性化的描述性统计量输出。 列联表统计(针对类别型变量的) table() #简单的频数统计表(输出列联表矩阵,等同于count函数) xtabs() #公式法输入,输出列联表 prop.table 、频率统计和交叉列联表统计使用。

    4.4K120发布于 2018-04-11
  • 来自专栏喔家ArchiSelf

    数据工程师常见的10个数据统计问题

    数据工程师自诩自己是“比任何软件工程师更擅长统计,比任何统计学者更擅长软件工程的人”。这里枚举了数据工程师常见的10个数据统计问题,希望对大家有所帮助。 1. 10. “需要更多数据”的谬论 与直觉相反,开始分析数据的最佳方法通常是处理数据的一个有代表性的样本集。这允许您熟悉数据并构建数据流水线,而无需等待数据处理和模型训练。

    30910编辑于 2024-05-07
领券