数据分析这个岗位一度很火,所以只要从事IT行业的朋友掌握一点数据分析的知识是有益无害的。
数据分析是什么
数据分析是指使用统计学、计算机科学和数据可视化等技术,通过对数据进行收集、清理、处理和分析,从中提取有价值的信息和知识,以帮助人们做出决策或解决问题。数据分析可以应用于各种领域,如商业、科学、医疗、社会科学等,包括以下步骤:
为什么学
学习数据分析有多个好处,包括:
学习数据分析,需要掌握一些基础知识和软件工具,包括:
基础知识:
常用软件:
举个例子,比如使用python处理excel,处理学生成绩表:
1、先导入需要使用的Python库,如Pandas和Openpyxl:
import pandas as pd
import openpyxl
2、然后,读Excel文件:
# 读取第一个Sheet页的数据
data = pd.read_excel('scores.xlsx', sheet_name=0)
# 或者读取指定Sheet页的数据
data = pd.read_excel('scores.xlsx', sheet_name='Sheet1')
3、通过Pandas的一些函数来了解数据集的基本情况:
# 查看前5行数据
data.head()
# 查看数据集中的列名
data.columns
# 查看数据集中每列的数据类型
data.dtypes
# 查看数据集中每列的统计信息
data.describe()
除此之外,我们还可以使用Pandas的一些函数对数据集进行筛选、排序和转换操作,例如:
# 筛选出语文成绩大于等于80分的学生记录 data[data['语文'] >= 80]
# 按照总分进行降序排序
data.sort_values('total', ascending=False)
# 将总分转换为整数类型
data['total'] = data['total'].astype(int)
4、#数据集保存到Excel文件中
wb = openpyxl.Workbook()
ws = wb.active
for r in dataframe_to_rows(data_sorted, index=False, header=True):
ws.append(r)
wb.save('new_scores.xlsx')总结下使用pandas操作excel
import pandas as pd
# 读取Excel文件
data = pd.read_excel('example.xlsx', sheet_name='Sheet1')
# 获取单元格的值
cell_value = data.at[0, 'A']
# 获取某一行或某一列的值
row_values = data.loc[0, :]
col_values = data['A']
# 获取Sheet页中的所有行或所有列
rows = data.iterrows()
cols = data.iteritems()
# 遍历Sheet页中的所有行或所有列
for index, row in data.iterrows():
for col in data.columns:
print(row[col])感兴趣的同学可以后台回复数据分析,获取相关的学习资料,别忘了点赞关注呀。
END