关于表格860数据,我有一个关于美国发电厂的问题。
它是有组织的分块的,而不是植物的。要想有用,必须对容量数字进行汇总。
如何获得每个工厂的每项技术的总容量(按名称或id)?
Plant ID,Plant Name,Nameplate Capacity (MW),Technology,...
3,Barry,153.1,Natural Gas Steam Turbine,..
3,Barry,153.1,Natural Gas Steam Turbine,..
3,Barry,403.7,Conventional Steam Coal,..
3,Barry,788.8,Conventional Steam Coal,..
3,Barry,195.2,Natural Gas Fired Combined Cycle,..
3,Barry,195.2,Natural Gas Fired Combined Cycle,..
10,Greene County,299.2,Natural Gas Steam Turbine,..
10,Greene County,269.2,Natural Gas Steam Turbine,..
10,Greene County,80,Natural Gas Fired Combustion Turbine,..
10,Greene County,80,Natural Gas Fired Combustion Turbine,..
10,Greene County,80,Natural Gas Fired Combustion Turbine,..只有总结在Calc或Excel中使用SUMIF很容易完成,但是如何通过技术进行过滤?所以我最好用纯CSV处理来做这件事。
用Python就有可能吗?谢谢你的好回答!
发布于 2018-07-31 23:52:33
使用Python,您可以使用第三方Pandas库:
将您的Excel文件读入数据格式
import pandas as pd
df = pd.read_excel('file_in.xlsx')用和计算GroupBy
石斑鱼键可以是标量,也可以是列表。例如,这两者都是有效的:
res = df.groupby('Technology')['Capacity'].sum().reset_index()
res = df.groupby(['ID', 'Name'])['Capacity'].sum().reset_index()我们使用reset_index返回数据。
导出回Excel
res.to_excel('file_out.xlsx')发布于 2018-07-31 23:59:52
熊猫图书馆将是一个有用的图书馆。它用于处理数据帧。
导入潘达斯图书馆
import pandas as pd
读取表单csv文件
df = pd.read_csv("form.csv")
求和
df.groupby('PlantName')['NameplateCapacity'].sum()
https://stackoverflow.com/questions/51623539
复制相似问题