我刚刚开始使用R和R-Studio。我正在使用两个不同的数据集:每个数据集都包含相同的变量,并且在这些变量中包含相同类型的信息。
数据集已作为单独的集/文件导入R-Studio。第一个问题:我如何才能将它们结合起来?总共有17个。下面是其中两个的简短示例:
EVENT_ID STATE YEAR MONTH_NAME EVENT_TYPE INJURIES_DIRECT DEATHS_DIRECT
1 5551758 MASSACHUSETTS 1996 January Heavy Snow 0 0
2 5551581 MASSACHUSETTS 1996 January Heavy Snow 0 0
3 5551757 MASSACHUSETTS 1996 January Heavy Snow 0 0
4 5551573 MASSACHUSETTS 1996 January Heavy Snow 0 0
5 5551572 MASSACHUSETTS 1996 January Heavy Snow 0 0
EVENT_ID STATE YEAR MONTH_NAME EVENT_TYPE INJURIES_DIRECT DEATHS_DIRECT
1 5591809 MASSACHUSETTS 1997 January Winter Weather 0 0
2 5591810 MASSACHUSETTS 1997 January Winter Weather 0 0
3 5591817 MASSACHUSETTS 1997 January Heavy Snow 0 0
4 5591820 MASSACHUSETTS 1997 January Heavy Snow 0 0
5 5591819 MASSACHUSETTS 1997 January Heavy Snow 0 0
6 5591811 MASSACHUSETTS 1997 January Heavy Snow 0 0
7 5591813 MASSACHUSETTS 1997 January Heavy Snow 0 0正如你所看到的,每一个都有相同的头。一旦我组合了这些数据集-不包括在数据中间的标题!-我将开始分析。第二个问题:如何量化因子,比如在EVENT_TYPE变量中找到的因子?我试着把它们转换成"as.numeric",我相信它会按照字母顺序对它们进行1-x排序。这很好,但是我如何跟踪这些数据呢?我希望像处理数字数据一样处理它们,但不知道从哪里开始,也不知道如何开始。
如果有其他地方对此进行了解释,请让我知道,我很高兴阅读这些例子。我不知道该怎么问才好。
发布于 2014-04-07 11:29:44
创建一个列表,并使用do.call对它们运行rbind:
do.call( rbind, list(df1,df2,df3, ....,dfN) )发布于 2014-04-07 11:34:09
有关实际的统一:请参阅BondedDust的答案(有关实现基本相同目的的更多扩展内容,请参阅here)。
在对EVENT_TYPE数量元素进行排序和排名方面,您有没有看过?as.factor()?如果您能解释一下您希望如何处理这些数据,我们可能会提供一个更具实质性的答案:)。
发布于 2014-04-07 11:44:44
help(rbind)将帮助您入门。
您希望以数据名的形式读取数据,可能使用read.csv或read.table,然后使用rbind组合数据帧。有关解释和示例,请参阅help(data.frame)和help(rbind)。在http://www.endmemo.com/program/R/rbind.php上还有一个非常简短的例子
在组合字符串之前,不要将它们转换为因子。您可以通过在加载数据时指定strings.as.factors = False来完成此操作。
不过,一旦组合了数据帧,就可以使用d[,colnum] = as.factor(d[,colnum])将列转换为因子。这将为该列中出现的每个短语创建整数级别。如果要在数值上实际使用因子,则可能需要指定因子的使用顺序(以便大雪具有比雪更高的数字,等等)。您还需要检查缺少的值,并注意大写/小写或额外空格等因素的变化。
https://stackoverflow.com/questions/22902996
复制相似问题