首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >isin pandas不能显示数据帧中的所有值

isin pandas不能显示数据帧中的所有值
EN

Stack Overflow用户
提问于 2017-02-01 21:05:39
回答 1查看 85关注 0票数 2

我正在使用亚马逊数据库进行我的研究,我想选择100个评分最高的项目。因此,首先我计算了itemID的值(asin)

代码语言:javascript
复制
data = amazon_data_parse('data/reviews_Movies_and_TV_5.json.gz')
unique, counts = np.unique(data['asin'], return_counts=True)
test = np.asarray((unique, counts)).T
test.sort(axis=1)

这就给出了:

代码语言:javascript
复制
array([[5, '0005019281'],
       [5, '0005119367'],
       [5, '0307141985'],
       ..., 
       [1974, 'B00LG7VVPO'],
       [2110, 'B00LH9ROKM'],
       [2213, 'B00LT1JHLW']], dtype=object)

很明显,必须至少选择6.000行。但是如果我运行:

代码语言:javascript
复制
a= test[49952:50054,1]
a = a.tolist()
test2 = data[data.asin.isin(a)]

它只从数据集中选择2000行。我已经尝试了多种方法,比如只在一个asin上过滤,但似乎不是很有效。有人能帮帮忙吗?如果有一个更好的选择来获得一个数据帧,在asin列中包含前100个最频繁的值的行,我也会很高兴。

EN

回答 1

Stack Overflow用户

发布于 2017-02-01 21:50:09

我找到了解决方案,必须将排序行更改为:

代码语言:javascript
复制
test = test[test[:,1].argsort()]
票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/41980577

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档