我想分析电影镜头数据集并在我的机器上加载M1文件。我实际上组合了两个数据文件(ratings.dat和movies.dat),并根据'userId'和'Time'列对表进行排序。我的DataFrame的头看起来如下(所有列值都对应于原始数据集):
In [36]: df.head(10)
Out[36]:
userId movieId Rating Time movieName \
40034 1 150 5 978301777 Apollo 13 (1995)
77615 1 1028 5 978301777 Mary Poppins (1964)
550485 1 2018 4 978301777 Bambi (1942)
400889 1 1962 4 978301753 Driving Miss Daisy (1989)
787274 1 1035 5 978301753 Sound of Music, The (1965)
128308 1 938 4 978301752 Gigi (1958)
497972 1 3105 5 978301713 Awakenings (1990)
28417 1 2028 5 978301619 Saving Private Ryan (1998)
6551 1 1961 5 978301590 Rain Man (1988)
35492 1 2692 4 978301570 Run Lola Run (Lola rennt) (1998)
genre
40034 Drama
77615 Children's|Comedy|Musical
550485 Animation|Children's
400889 Drama
787274 Musical
128308 Musical
497972 Drama
28417 Action|Drama|War
6551 Drama
35492 Action|Crime|Romance
[10 rows x 6 columns]我无法理解同一用户Id 1同时看到或评级不同的电影(Apollo13 (Id:150)、Mary (Id:1028)和Bambi (Id:2018) )。如果有人已经使用此数据集,请清除此情况。
发布于 2014-10-22 15:50:43
当你在电影镜头上输入收视率时,你会得到大约10部电影的页面。您设置所有评级,然后通过单击“下一页”或其他方式提交。所以,我想,当您提交页面时,同一页的所有评级都会同时收到。
https://datascience.stackexchange.com/questions/2334
复制相似问题