首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >熊猫合并多DataFrame( relate )

熊猫合并多DataFrame( relate )
EN

Stack Overflow用户
提问于 2017-09-27 06:55:12
回答 1查看 74关注 0票数 0

我有疑问在熊猫数据合并中有关系。

请看下面的数据。

代码语言:javascript
复制
Rating csv
UserID ContentID Rating 
U-1      C-1       3
U-1      C-2       4
U-3      C-3       1
U-5      C-1       5

Content csv
Title ContentID Language
T-1      C-1      EN
T-2      C-2      EN
T-3      C-3      EN

User csv
UserID Age Gender
U-1    10    1
U-2    20    0
U-3    30    1
U-4    40    0 
U-5    50    1
U-6    60    0
U-7    70    1

我想要结果

代码语言:javascript
复制
UserID ContentID Rating Title Language Age  Gender
U-1      C-1       3     T-1     EN     10     1
U-1      C-2       4     T-2     EN     10     1
U-1      C-3      NAN    T-3     EN     10     1
U-2      C-1      NAN    T-1     EN     20     0   
U-2      C-2      NAN    T-2     EN     20     0
U-2      C-3      NAN    T-3     EN     20     0
U-3      C-1      NAN    T-1     EN     30     1         
U-3      C-2      NAN    T-2     EN     30     1   
U-3      C-3       1     T-3     EN     30     1    
U-4      C-1      NAN    T-1     EN     40     0    
U-4      C-2      NAN    T-2     EN     40     0   
U-4      C-3      NAN    T-3     EN     40     0   
U-5      C-1       5     T-1     EN     50     1          
U-5      C-2      NAN    T-2     EN     50     1    
U-5      C-3      NAN    T-3     EN     50     1    
U-6      C-1      NAN    T-1     EN     60     0     
U-6      C-2      NAN    T-2     EN     60     0     
U-6      C-3      NAN    T-3     EN     60     0     
U-7      C-1      NAN    T-1     EN     70     1     
U-7      C-2      NAN    T-2     EN     70     1     
U-7      C-3      NAN    T-3     EN     70     1    

总DF行大小为UserID(用户csv)计数*ContentID(内容csv)计数( ex>在7*3 -> 21行以上)。

所有DataFrame都是相关的。-评级/内容-> ContentID -评级/用户-> UserID

换句话说,结果DataFrame仅为保持评等区( nan ),其他区域为none。

实际大小内容( 6000 ),用户(220000) ->总结果行数:大约1300000000

我试过了,但它提高了memoryError.

请帮帮me..Thanks..。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2017-09-27 07:10:54

您可以在df2.ContentIDdf3.UserID中使用交叉连接和左联接--必要的唯一值。

代码语言:javascript
复制
df = pd.merge(pd.merge(df3.assign(A=1), df2.assign(A=1), on='A'), df1, 'left').drop('A', 1)
print (df)
   UserID  Age  Gender Title ContentID Language  Rating
0     U-1   10       1   T-1       C-1       EN     3.0
1     U-1   10       1   T-2       C-2       EN     4.0
2     U-1   10       1   T-3       C-3       EN     NaN
3     U-2   20       0   T-1       C-1       EN     NaN
4     U-2   20       0   T-2       C-2       EN     NaN
5     U-2   20       0   T-3       C-3       EN     NaN
6     U-3   30       1   T-1       C-1       EN     NaN
7     U-3   30       1   T-2       C-2       EN     NaN
8     U-3   30       1   T-3       C-3       EN     1.0
9     U-4   40       0   T-1       C-1       EN     NaN
10    U-4   40       0   T-2       C-2       EN     NaN
11    U-4   40       0   T-3       C-3       EN     NaN
12    U-5   50       1   T-1       C-1       EN     5.0
13    U-5   50       1   T-2       C-2       EN     NaN
14    U-5   50       1   T-3       C-3       EN     NaN
15    U-6   60       0   T-1       C-1       EN     NaN
16    U-6   60       0   T-2       C-2       EN     NaN
17    U-6   60       0   T-3       C-3       EN     NaN
18    U-7   70       1   T-1       C-1       EN     NaN
19    U-7   70       1   T-2       C-2       EN     NaN
20    U-7   70       1   T-3       C-3       EN     NaN
票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/46441328

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档