首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何轻松组合数据集;如何量化文本数据

如何轻松组合数据集;如何量化文本数据
EN

Stack Overflow用户
提问于 2014-04-07 11:10:47
回答 3查看 268关注 0票数 0

我刚刚开始使用R和R-Studio。我正在使用两个不同的数据集:每个数据集都包含相同的变量,并且在这些变量中包含相同类型的信息。

数据集已作为单独的集/文件导入R-Studio。第一个问题:我如何才能将它们结合起来?总共有17个。下面是其中两个的简短示例:

代码语言:javascript
复制
   EVENT_ID         STATE YEAR MONTH_NAME     EVENT_TYPE INJURIES_DIRECT DEATHS_DIRECT
1    5551758 MASSACHUSETTS 1996  January       Heavy Snow               0             0
2    5551581 MASSACHUSETTS 1996  January       Heavy Snow               0             0
3    5551757 MASSACHUSETTS 1996  January       Heavy Snow               0             0
4    5551573 MASSACHUSETTS 1996  January       Heavy Snow               0             0
5    5551572 MASSACHUSETTS 1996  January       Heavy Snow               0             0

    EVENT_ID         STATE YEAR MONTH_NAME     EVENT_TYPE INJURIES_DIRECT DEATHS_DIRECT
1    5591809 MASSACHUSETTS 1997  January   Winter Weather               0             0
2    5591810 MASSACHUSETTS 1997  January   Winter Weather               0             0
3    5591817 MASSACHUSETTS 1997  January       Heavy Snow               0             0
4    5591820 MASSACHUSETTS 1997  January       Heavy Snow               0             0
5    5591819 MASSACHUSETTS 1997  January       Heavy Snow               0             0
6    5591811 MASSACHUSETTS 1997  January       Heavy Snow               0             0
7    5591813 MASSACHUSETTS 1997  January       Heavy Snow               0             0

正如你所看到的,每一个都有相同的头。一旦我组合了这些数据集-不包括在数据中间的标题!-我将开始分析。第二个问题:如何量化因子,比如在EVENT_TYPE变量中找到的因子?我试着把它们转换成"as.numeric",我相信它会按照字母顺序对它们进行1-x排序。这很好,但是我如何跟踪这些数据呢?我希望像处理数字数据一样处理它们,但不知道从哪里开始,也不知道如何开始。

如果有其他地方对此进行了解释,请让我知道,我很高兴阅读这些例子。我不知道该怎么问才好。

EN

回答 3

Stack Overflow用户

发布于 2014-04-07 11:29:44

创建一个列表,并使用do.call对它们运行rbind:

代码语言:javascript
复制
  do.call( rbind,  list(df1,df2,df3, ....,dfN) )
票数 1
EN

Stack Overflow用户

发布于 2014-04-07 11:34:09

有关实际的统一:请参阅BondedDust的答案(有关实现基本相同目的的更多扩展内容,请参阅here)。

在对EVENT_TYPE数量元素进行排序和排名方面,您有没有看过?as.factor()?如果您能解释一下您希望如何处理这些数据,我们可能会提供一个更具实质性的答案:)。

票数 1
EN

Stack Overflow用户

发布于 2014-04-07 11:44:44

help(rbind)将帮助您入门。

您希望以数据名的形式读取数据,可能使用read.csvread.table,然后使用rbind组合数据帧。有关解释和示例,请参阅help(data.frame)help(rbind)。在http://www.endmemo.com/program/R/rbind.php上还有一个非常简短的例子

在组合字符串之前,不要将它们转换为因子。您可以通过在加载数据时指定strings.as.factors = False来完成此操作。

不过,一旦组合了数据帧,就可以使用d[,colnum] = as.factor(d[,colnum])将列转换为因子。这将为该列中出现的每个短语创建整数级别。如果要在数值上实际使用因子,则可能需要指定因子的使用顺序(以便大雪具有比雪更高的数字,等等)。您还需要检查缺少的值,并注意大写/小写或额外空格等因素的变化。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/22902996

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档