首页
学习
活动
专区
圈层
工具
发布
    • 综合排序
    • 最热优先
    • 最新优先
    时间不限
  • 来自专栏锦小年的博客

    Python数据分析(5)-numpy数组索引

    numpy数组的索引遵循python中x[obj]模式,也就是通过下标来索引对应位置的元素。 [2 8] c2 is [] c3 is [2 8] d is: [[22 20] [10 8]] 综上:在基础 索引中都是采用的python切片形式:x[start:stop:step] ,结合负数索引 ('b 的 shape is:',b.shape) c = a[2:3,:] print('c的shape is',c.shape) 输出: a 数据为: [[0 1 2] [3 4 5] [6 7 8]] b 的 shape is: (3,) c的shape is (1, 3) a 数据为: [[0 1 2] [3 4 5] [6 7 8]] b 的 shape is: ]) 输出: a 数据为: [[ 0 1 2 3] [ 4 5 6 7] [ 8 9 10 11] [12 13 14 15]] [[[ 4 5 6 7] [12 13 14

    2.7K11发布于 2019-05-26
  • 来自专栏python前行者

    python数据分析与挖掘实战》笔记第5

    文章目录 第5章:挖掘建模 5.1、分类与预测 5.1.1、实现过程 5.1.2、常用的分类与预测算法 5.1.3、回归分析 5.1.4、决策树 5.1.5、人工神经网络 5.1.7、 Python 分类预测模型特点 5.2、聚类分析 5.2.1、常用聚类分析算法 5.2.2、 K-Means聚类算法 5.2.3、聚类分析算法评价 5.2.4、 Python主要聚类分析算法 5.3、关联规则 5.3.1 5.2.1、常用聚类分析算法 与分类不同,聚类分析是在没有给定划分类别的情况下,根据数据相似度进行样本分组的一种方法。 K-Means聚类算法的Python代码如代码清单5-4所示。 5.2.4、 Python主要聚类分析算法 Python的聚类相关的算法主要在Scikit-Learn中,Python里面实现的聚类主要包括 K-Means聚类、层次聚类、FCM以及神经网络聚类,其主要相关函数如表

    1.3K10发布于 2021-03-03
  • 来自专栏c/c++的学习笔记

    python数据分析——Python数据分析模块

    Python数据分析模块 前言 在当今数字化时代,数据分析已经变得不可或缺。而Python,作为一种通用编程语言,其丰富的库和强大的功能使得它成为数据分析领域的佼佼者。 Python数据分析模块,正是这一领域的核心组成部分,为数据科学家和工程师提供了强大的武器库。 Python数据分析模块的核心库主要包括NumPy、Pandas和Matplotlib。 无论是数据科学家、工程师还是其他领域的专业人士,都可以通过学习和掌握Python数据分析模块来提高工作效率、提升数据分析能力。随着大数据时代的到来,Python数据分析模块的应用前景将更加广阔。 二、Pandas模块 Pandas是Python环境下非常重要的数据分析库。当使用Python进行数据分析时,通常都指的是使用Pandas库作为分析工具对数据进行处理和分析。 方法 功能描述 head(n) / tail(n) 返回数据前/后n行记录,当不给定n时,默认前/后5行 describe() 返回所有数值列的统计信息 max(axis=0) / min(axis =

    1.1K10编辑于 2024-03-20
  • 来自专栏CDA数据分析师

    案例 | 5步掌握Python数据分析挖掘基础应用

    所以要想在数据科学领域有所进步的话,了解学习Python看来还是有所必要的。 本文使用Python2.7版本,操作在集成开发坏境Spyder中进行;选择的数据集,是大名鼎鼎的鸢尾花数据集iris.csv,数据集网上公开请自行下载! 1.数据集截图如下图1: ? 图1.iris数据集截图 该数据集包含数据有150行*5列。前4列分别是:花萼的长度、宽度,花瓣的长度、宽度;最后一列是花的分类,总共分3类。 2.读入数据,如下图2: ? 从输出结果中可以看到每列数据的平均值等统计数值,较简单不多说。 4.聚类分析,如下图5: ? 图5.聚类分析代码 输出结果,如下图6: ? 图6.聚类分析结果 在Python中利用sklearn库中的cluster.Kmeans对irisFeatures进行聚类分析,并输出分类结果。 5.决策树模型,如下图7: ?

    1.1K90发布于 2018-02-05
  • 来自专栏机器学习养成记

    关联分析(5):Apriori Python实现

    在关联分析(3):Apriori R语言实现一文中,写了如何使用R语言进行关联分析,那在Python中如何实现呢? 1 Python实现 之前已经在关联分析(1):概念及应用和关联分析(2):Apriori产生频繁项集介绍了关联分析相关知识及Apriori算法原理,此处不再赘述,直接开始Python代码实现 通过使用efficient_apriori包的apriori(data, min_support, min_confidence)函数可帮我们快速实现关联分析,其中data是要进行分析数据,要求list 数据情况 本例中我们使用的是UCI机器学习库上下载的美国众议院议员投票记录数据数据共有16列,首先对数据情况进行基本展示: ? ? (python) · ggplot2:正负区分条形图及美化

    2.7K40发布于 2020-01-31
  • 来自专栏R语言数据分析

    表达芯片数据分析5——多组数据联合分析

    removeBatchEffect()# batch <- c(rep("A",12),rep("B",5))batch <- c(rep("A",12),rep("B",6))exp2 <- removeBatchEffect ComBat# batch <- c(rep("A",12),rep("B",5))batch <- c(rep("A",12),rep("B",6))mod = model.matrix(~Group

    61820编辑于 2023-10-06
  • 来自专栏AI篮球与生活

    Python数据分析《爱情公寓5》中的蜕变和成长

    《爱情公寓5》终于在一片千呼万唤中开播了。 在青春情怀和强大的“十年IP”的加持下,该剧在开播后不久,热度便迅速上升。 并且也在微博热搜榜上,我们也时不时能看到类似#爱情公寓5#、#子乔美嘉领证#等话题出现。 但是反观豆瓣、微博、知乎等多个平台的评价来看,吐槽之声此起彼伏,今天小编就通过Python爬虫和可视化等方式来盘点一下《爱情公寓5》这部剧的评价和蜕变。 关于剧评 截止目前为止,《爱情公寓5》在豆瓣上的评分只有5.0分,有超过6.4万参与评价,并且1星至3星加起来总共便占到了75%, ? 其实是我们该长大了 而在看完现有的剧情之后,小编对《爱5》的感受就是它“变味了”,而这种“变味”更加是体现在了主创们的成长和迈入人生当中的下一阶段的蜕变。

    72910发布于 2020-02-18
  • 来自专栏Python in AI-IOT

    Python数据分析---性能分析

    从上亿条的工业物联网数据中快速检索所需要的数据进行算法分析以及可视化,需要大量的科学运算,为了保证整个过程在用户可以忍受的等待时间内(10s),需要在代码中找到影响性能瓶颈的代码或函数,然后对其优化 下面介绍自己日常经常使用的性能分析手段: 一般上我写代码没有使用Pycharm等高级IDE,而是在Python自带的IDE中编写。 image.png 利用jupyter的%time,%timeit image.png image.png image.png image.png 利用%run -p和%run -t来分析性能和执行时间 需要文件本身是从上到下执行的语句,如果是模块,为其编写main函数 image.png image.png image.png 使用python -m cProfile youcode.py 来对代码进行性能分析,也可以用python -m cProfile youcode.py -o youcode.prof将分析结果保存在文件中 image.png

    1K20发布于 2020-05-13
  • 来自专栏好奇心Log

    Python数据分析 | 相关分析

    目前手上有两本书,一本《利用Python进行数据分析》,一本《Python数据科学》。 对于学习什么东西,都有它的「道」和「术」。「道」即原理,「术」即技巧。 它并不会真正的教你如何去分析数据,适合查阅。 而后者呢,更注重数据分析的原理,教我们如何去剖析数据,得到我们想要的结果。 所以接下来会以后者作为学习的方向,不能仅仅停留在描述性数据分析上(数据可视化)。 更应该多花时间在预测性数据分析上(建立数据模型预测)。 另外上期的送书活动已结束,两位小伙伴也联系我了。 / 01 / 前言 说实话,《Python数据科学》这本书是真的不错。 它不仅提供了大量的专业术语的解释,还有各式各样通俗易懂的案例。 非常适合新手学习,后期一定也给大家争取争取一下送书的福利! 所以在每篇的前言,我会摘要一些《Python数据科学》的相关内容。 一方面,加深自己对相关知识的印象。 另一方面,也分享给大家,补充一下专业知识。

    80050发布于 2021-11-10
  • 来自专栏数据山谷

    Python数据分析

    Python数据分析 工欲善其事,必先利其器“,Python是目前为止做数据分析最常用的编程语言,我们可以站在巨人的肩膀上,高效完成数据分析。 从Python的受欢迎程度上看,一直呈上升趋势 ? 我们现在要使用Python来做数据分析,主要从两个方面来考虑问题: 第一:选择什么开发工具。 第二:学习哪些知识来解决数据分析的问题。 本公众号中有详细的anaconda的安装流程,文章链接如下: anaconda安装流程 大斌哥,公众号:数据山谷Python之Anaconda安装 数据分析使用Python中的知识点和常见的科学计算库也需要给大家列举出来 Python数据分析主要是解决数据清洗及数据可视化的问题,掌握Python基本的语法规则,会调用第三方模块对于提高数据分析能力非常重要。 而NumPy和Pandas就是数据清洗最好用的工具,Matplotlib和Seaborn是解决数据可视化的工具包。我们可以从实用的角度来学习Python,提高数据分析的能力和效率。

    85610发布于 2020-11-12
  • 来自专栏CDA数据分析师

    Python分析投票数据,选出真正的乐队TOP 5

    第一步:数据采集 数据分析数据分析,没有数据就没有分析。 网络上没有公开的详细得票、排名数据,只好自己整理了。首先购买爱奇艺会员,不然很长时间都消耗在广告上了。 data1 = data1.dropna(axis = 0) 此外第六场的总票数还没有给出,也有一部分空值,但不影响分析这样就完成了,因为数据是自己手动录入的,所以其它没什么问题了,可以开始分析了。 第四步:数据分析 整体的分析思路遵循从整体到局部的顺序,分为乐队和歌曲两个部分,再细分超级乐迷,专业乐迷和大众乐迷三个角度。同时会展示乐队在每期比赛的排名升降情况。 首先我们分析乐队,通过27只乐队在目前5场比赛中所表演的曲目的总得分的标准分的平均分,来衡量乐队的整体表现。 对乐队的分析暂时告一段落,接下来看看歌曲。 PART III :如果你只有十首歌的时间,我建议你听这些歌 通过前面提到的归一化计算,可以得到一下数据 ?

    81010发布于 2019-08-21
  • 来自专栏全栈程序员必看

    Python文本情感分析_Python数据分析实战

    然后才是如何进行情感分析。 强大的snowNLP 其实就在今天,我发现了snowNLP这个Python的三方库,它可以方便的处理中文文本的内容,它有以下功能: 中文分词 词性标注 情感分析 文本分类 文本转拼音 繁体转简体 提取文本关键词 纵观这么多的功能真是让人眼花缭乱,其实这个题目只需要情感分析这一个功能就够了,情感分析的功能是:你给它一个句子,它给你一个positive值。 setup.py build和python setup.py install,等待完成即可。 就在我满心欢喜的认为这次终于轻松加愉快地完成了任务的时候,positive当即给了我一jio,我测试了几组常见的语句,发现函数返回的positive值和现实差了八万十千里,在一阵慌乱中查阅了资料,发现原本的库训练的数据主要是买卖东西时的评价

    2K20编辑于 2022-09-23
  • 来自专栏阿黎逸阳的代码

    Python数据分析数据更新

    在对海量数据进行分析的过程中,可能需要增加行和列,也可能会删除一些行和列。 今天介绍数据分析的第五课,教大家如何在python中对数据框进行一些更新操作。 本文目录 在数据框最后追加一行 在数据框中插入一列 删除数据框中的行 删除数据框中的列 删除满足某种条件的行 注意:本文沿用数据分析第一课【Python数据分析数据建立】里的数据框date_frame 比如我想在数据框的第一列插入新的列,可以在python中运行如下语句: date_frame.insert(0, 'calss', ['class1','class1','class1','class1 5 删除满足某种条件的行 假设要删除所有年龄大于18岁的记录,可以在python中输入如下语句: date_frame.drop(index = (date_frame.loc[(date_frame.age 至此,在python中对数据框进行更改操作已介绍完毕,大家可以动手练习一下,思考一下还可不可以对数据框进行别的操作

    1.1K20发布于 2020-11-24
  • 来自专栏c/c++的学习笔记

    python数据分析——大数据伦理风险分析

    前言 大数据伦理风险分析在当前数字化快速发展的背景下显得尤为重要。随着大数据技术的广泛应用,企业、政府以及个人都在不断地产生、收集和分析海量数据。 然而,这些数据的利用也带来了诸多伦理风险,如隐私泄露、数据滥用、算法偏见等。因此,对大数据伦理风险进行深入分析,并采取相应的防范措施,对于保障数据安全、维护社会公平正义具有重要意义。 首先,大数据的收集和处理过程中存在着隐私泄露的风险。在未经用户同意的情况下,部分企业和机构可能会收集用户的个人信息,如浏览记录、购物习惯等,进而进行精准营销或数据分析。 一些机构可能会利用手中的大数据资源,对用户进行过度分析或不当利用,如歧视性定价、不公平竞争等。这种滥用数据的行为不仅违反了市场公平竞争的原则,也损害了消费者的权益。 在对大数据多源数据进行综合分析,可以挖掘出更多的个人信息,加剧了个人信息泄露的风险。"匿名化”的可信度? 大数据技技术安全漏洞,导致数据泄露、伪造和失真等问题。

    62410编辑于 2024-03-20
  • 来自专栏阿黎逸阳的代码

    Python数据分析数据排序

    在对海量数据进行分析的过程中,可能需要对数据进行排序操作。 本节教大家如何在python中对数据框进行一些排序操作。 本文目录 总结sort_values函数的用法 按年龄对行进行升序排列 按年龄对行进行降序排列 按年龄升序身高降序排列数据框 对列进行排序 注意:本文沿用数据分析第一课【Python数据分析数据建立 4 按年龄升序身高降序排列数据框 若想按年龄升序身高降序排列数据框,可在python中输入如下语句: date_frame.sort_values(by = ['age','height'], ascending 5 对列进行排序 对列排序,第一种办法是重定义列的顺序进行排序。 至此,在python中对数据框进行排序操作已介绍完毕,大家可以动手练习一下,思考一下还可不可以对数据框进行别的操作 ? 。

    2.4K20发布于 2020-12-11
  • 来自专栏阿黎逸阳的代码

    Python数据分析数据建立

    再比如信贷领域,可以通过分析申请人的征信数据,建模计算出申请人逾期的可能性大小,决定是否放贷,从而提高公司资金的使用价值。 在数据分析越来越热门的今天,学会数据分析,就是你升职加薪的重要砝码。 从今天开始,本公众号会出一系列数据分析和建模的免费教程。帮助大家快速入门数据分析,领悟python的魅力。 本文是数据分析的第一课,教大家如何在python中手动建立数据框,这个是数据分析的基础,也是数据测试常用的一个工具。 本文目录 导入包 要建立的数据框 建立以上数据框的python代码 输出打印结果 1 导入包 对于没有安装python的同学,请自行按照网上的教程安装好python,建议安装一个anaconda 3 建立以上数据框的python代码 把以上表格用python中的字典表示出来,并用pd.DataFrame函数把该字典转成数据框。

    84820发布于 2020-11-24
  • 来自专栏数据STUDIO

    Python数据分析数据探索分析(EDA)

    ---- 本期Python数据分析实战将详细介绍日常工作中所常用的数据探索分析方法与技巧,将从数据质量分析数据特征分析两大方面进行刨析。 接下来利用Python进行数据分析时,需要根据所获得数据的具体特征,选用合适的数据读取方法和工具,数据获取三大招将帮助读者快速理解并选择合适并适合的方法,便于后续数据探索工作。 例: >>> import pandas as pd >>> df = pd.DataFrame([1,2,3,4,5,6,7,8]) >>> df.mean() 0 4.5 dtype: float64 例: >>> import pandas as pd >>> df = pd.DataFrame([1,2,3,4,5,6,7,8]) >>> df.describe() # 描述统计 df.quantile(0.5) 0 4.5 Name: 0.5, dtype: float64 >>> import numpy as np >>> np.percentile(df,50) 4.5 5

    4.6K60发布于 2021-06-24
  • 来自专栏阿黎逸阳的代码

    Python数据分析数据选择

    再比如信贷领域,可以通过分析申请人的征信数据,建模计算出申请人逾期的可能性大小,决定是否放贷,从而提高公司资金的使用价值。 在数据分析越来越热门的今天,学会数据分析,就是你升职加薪的重要砝码。 本文是数据分析的第二课,教大家如何在python中进行数据选择。 本文目录 选择数据框中的某一列 选择数据框中的多列 选择数据框中的某一行 选择数据框中的多行 选择子数据框 选择带条件的数据框 注意:本文沿用数据分析第一课【Python数据分析数据建立】里的数据5 选择一个子数据框 我们之前单独选择了某些行和某些列,如果我们想选行下标为1和2,列下标也为1和2 的子数据框(图中绿色部分),我们该怎么办? ? 至此,在python中进行数据选择的基本操作已经完成啦,大家可以动手练习一下,思考一下还有没有别的数据选择的更好方法

    1.3K10发布于 2020-11-24
  • 获取分析数据5个Tips

    相信很多人都有这样的体会,就是在想做数据分析时,发现很多数据都没有。比如要追溯5个月以前的数据,但发现只保留了最近两个月的数据。 因此,产品经理或运营经理就需要在产品诞生的时候,想清楚需要什么数据满足后面的分析需求,让开发人员预先做埋点把这些数据记录下来,方便后期数据分析使用。 3、不要没用的数据在有可选数据之后,是不是提取越多的数据出来分析越好呢?并不是的,数据并不是多多益善的。回想一下,在平时进行数据分析时,是不是有很多数据是你提出需要的,但最后却没有发挥作用? 过多的数据会让你的分析工作变得繁杂,特别是在提取数据和处理数据时,有些数据用之无味、弃之可惜。过多的数据会让你的分析报告密密麻麻,重点不清晰。 所以,不管是技术人员、产品经理还是运营经理,都需要尽自己的责任去保证数据的可靠、准确和稳定获得。5、不要不可靠的数据使用不可靠的数据,有时候不如没有数据。不可靠数据跟可靠数据是相对的。

    19410编辑于 2025-02-07
  • 来自专栏一丘一壑

    Python分析5万+个WordPress插件

    总之,可以分析的内容是很多的。本次仅做一些简单的分析,也是抛砖引玉。 关于插件下载量 插件下载量总览 一碗米饭总共有多少粒米?这个总和数据的参考意义其实不大。 注意在Python中,向下取整总是从 0 舍入。 np.log(a) np.log10(a) np.log2(a) : 计算各元素的自然对数、10、2为底的对数 。 0没有对数,在numpy中取0的对数,会得到-inf(Infinity(无穷大))那么处理办法也有几种: 删除相关数据:如果不影响整体数据分析,可以考虑去除相应行和列,直接把下载量为0的排除掉。 ,并不影响分析。 这些都是一些不好量化的东西,不过也有一些数据可以结合起来看看,是不是会对下载量有一定的影响,比如可以把这几个数据取出来一起分析: “rating”:数值类型,插件的评分 “num_ratings”:数值类型

    1.1K30发布于 2019-04-09
领券