我有一个像这样的数据框架。
import pandas as pd
data = [[5, 7, 10], [7, 20, 4,], [8, 1, 6,]]
cities = ['Boston', 'Phoenix', 'New York']
df = pd.DataFrame(data, columns=cities, index=cities)输出:
Boston Phoenix New York
Boston 5 7 10
Phoenix 7 20 4
New York 8 1 6我希望能找到最有价值的一对城市。在这种情况下,我想返回凤凰城。
我试过:
cityMax = df.values.max()
cityPairs = df.idxmax()第一个只给我最大的值(20),第二个给我每个城市最大的一对,而不仅仅是总体的最大值。是否有一种方法可以返回数据value中指定值的索引和列标题?
发布于 2015-04-08 03:13:46
使用un堆栈()并使用idxmax()将顶部的MultiIndex解压缩为元组
import pandas as pd
data = [[5, 7, 10], [7, 20, 4,], [8, 1, 6,]]
cities = ['Boston', 'Phoenix', 'New York']
df = pd.DataFrame(data, columns=cities, index=cities)
print df.unstack().idxmax()返回:
('Phoenix', 'Phoenix')发布于 2015-04-08 03:14:27
你也可以试试这个
In [15]: df_mat = df.as_matrix()
In [16]: cols, idxs = np.where(df_mat == np.amax(df_mat))
In [17]: ([df.columns[col] for col in cols], [df.index[idx] for idx in idxs])
Out[17]: (['Phoenix'], ['Phoenix'])@piemont方法似乎更优雅。但是,我想知道在您的情况下(数据的大小),哪种方法会工作得更快。你能通过在你的全部数据上设定这些函数的时间来检查一下吗?
发布于 2015-04-08 03:25:33
row_city, column_city = (df.max(axis=1).idxmax(), df.max(axis=0).idxmax())https://stackoverflow.com/questions/29504938
复制相似问题