例如:INPUT DATAFRAME是:-
INPUT group
4000 1
4000 1
2000 2
3000 3
2000 4
2000 4
2000 4输出:-动态分配任意随机向量并生成输出为:-具有最大重复群数的第一次数据,具有第二次最高重复组元素的第二次数据,如…。
输出
1.第一
INPUT group
2000 4
2000 4
2000 42秒
INPUT group
4000 1
4000 1 3.第三代
INPUT group
2000 24.第四代
INPUT group
3000 3 用更简单的话来说-我想把数据分解成一些组,在结果中,我希望所有的组都按升序分配给一些变量。到目前为止,我试过这样做:
x<-setDT(df)[, group := rleid(df$INPUT)]这将对这个组进行排序。我又试了一次,那就是:
y<-x[x$group == which.max(tabulate(x$group)), ] 但这只返回具有最大重复组元素数的组。
发布于 2015-12-30 21:31:46
我不确定你是否同时需要所有的输出。但这里有一个可能有帮助的想法。我正在使用dplyr包进行此操作。因此,首先让我重新创建您提供的作为输入的数据集:
library(dplyr)
DF <- data.frame(INPUT = c(4000,4000,2000,3000,2000,2000,2000), group = c(1,1,2,3,4,4,4))
df <- tbl_df(DF)
df输出
INPUT group
(dbl) (dbl)
1 4000 1
2 4000 1
3 2000 2
4 3000 3
5 2000 4
6 2000 4
7 2000 4现在,我将创建一个辅助表,它将告诉我每个组中有多少行,这个表已经从max排序到min:
aux <- df %>% group_by(group) %>% summarise(n = n()) %>% arrange(-n)
aux输出
group n
(dbl) (int)
1 4 3
2 1 2
3 2 1
4 3 1所以我们看到,第4组出现了3次,第1组出现了两次,等等。现在,我可以轻松地从最大到最小“提取”我想要的组:
ymax <- df %>% filter(group == aux$group[1])
y2 <- df %>% filter(group == aux$group[2])
y3 <- df %>% filter(group == aux$group[3])
ymin <- df %>% filter(group == aux$group[4])输出
ymax
INPUT group
(dbl) (dbl)
1 2000 4
2 2000 4
3 2000 4
y2
INPUT group
(dbl) (dbl)
1 4000 1
2 4000 1
y3
INPUT group
(dbl) (dbl)
1 2000 2
ymin
INPUT group
(dbl) (dbl)
1 3000 3我希望这能帮到你。
我只想补充一点,当然,你可以同时得到所有的信息:
ylist <- lapply(1:nrow(aux), function(x) {filter(df, group == aux$group[x])})输出
[[1]]
Source: local data frame [3 x 2]
INPUT group
(dbl) (dbl)
1 2000 4
2 2000 4
3 2000 4
[[2]]
Source: local data frame [2 x 2]
INPUT group
(dbl) (dbl)
1 4000 1
2 4000 1
[[3]]
Source: local data frame [1 x 2]
INPUT group
(dbl) (dbl)
1 2000 2
[[4]]
Source: local data frame [1 x 2]
INPUT group
(dbl) (dbl)
1 3000 3发布于 2015-12-30 21:23:00
在Python中,您可以执行以下操作:
创建DF:
import pandas as pd
df = pd.DataFrame()
df['INPUT'] = [4000,4000,2000,3000,2000,2000,2000]
df['group'] = [1,1,2,3,4,4,4]一组一组,获取每个组的大小,将此大小作为一列添加到DF中,并按其升序排序:
df = df.merge(pd.DataFrame(df.groupby('group').size()).reset_index()).sort_values(0,ascending=False)然后,循环遍历DF以获得每次需要的部分:
for i,x in enumerate(df['group'].unique()):
print 'ouput',i
print df[df['group']==x].ix[:,:-1].reset_index(drop=True)
print 这给了你以下几点:
ouput 0
INPUT group
0 2000 4
1 2000 4
2 2000 4
ouput 1
INPUT group
0 4000 1
1 4000 1
ouput 2
INPUT group
0 2000 2
ouput 3
INPUT group
0 3000 3发布于 2015-12-30 21:19:59
印度先生-试试这个。
library(sqldf)
Input=c('4000','4000','2000','3000','2000','2000','2000')
gr<-c('1','1','2','3','4','4','4')
DF<-data.frame(Input,gr)
NewDF<-data.frame()
DF<-sqldf("select distinct Input, gr, count(*) as C from DF group by Input, gr order by C desc")
for (i in 1:nrow(DF))
assign(paste("NewDF_",i,sep=""),na.omit(DF[i,][rep(row.names(DF), DF$C), 1:2]))这将用您想要的输出创建4种不同的Dataframes。
https://stackoverflow.com/questions/34536502
复制相似问题