文章/答案/技术大牛

发布

社区首页 >问答首页 >如何轻松组合数据集；如何量化文本数据

问如何轻松组合数据集；如何量化文本数据
EN

Stack Overflow用户

提问于 2014-04-07 11:10:47

回答 3查看 268关注 0票数 0

我刚刚开始使用R和R-Studio。我正在使用两个不同的数据集:每个数据集都包含相同的变量，并且在这些变量中包含相同类型的信息。

数据集已作为单独的集/文件导入R-Studio。第一个问题:我如何才能将它们结合起来？总共有17个。下面是其中两个的简短示例：

   EVENT_ID         STATE YEAR MONTH_NAME     EVENT_TYPE INJURIES_DIRECT DEATHS_DIRECT
1    5551758 MASSACHUSETTS 1996  January       Heavy Snow               0             0
2    5551581 MASSACHUSETTS 1996  January       Heavy Snow               0             0
3    5551757 MASSACHUSETTS 1996  January       Heavy Snow               0             0
4    5551573 MASSACHUSETTS 1996  January       Heavy Snow               0             0
5    5551572 MASSACHUSETTS 1996  January       Heavy Snow               0             0

    EVENT_ID         STATE YEAR MONTH_NAME     EVENT_TYPE INJURIES_DIRECT DEATHS_DIRECT
1    5591809 MASSACHUSETTS 1997  January   Winter Weather               0             0
2    5591810 MASSACHUSETTS 1997  January   Winter Weather               0             0
3    5591817 MASSACHUSETTS 1997  January       Heavy Snow               0             0
4    5591820 MASSACHUSETTS 1997  January       Heavy Snow               0             0
5    5591819 MASSACHUSETTS 1997  January       Heavy Snow               0             0
6    5591811 MASSACHUSETTS 1997  January       Heavy Snow               0             0
7    5591813 MASSACHUSETTS 1997  January       Heavy Snow               0             0

正如你所看到的，每一个都有相同的头。一旦我组合了这些数据集-不包括在数据中间的标题！-我将开始分析。第二个问题:如何量化因子，比如在EVENT_TYPE变量中找到的因子？我试着把它们转换成"as.numeric"，我相信它会按照字母顺序对它们进行1-x排序。这很好，但是我如何跟踪这些数据呢？我希望像处理数字数据一样处理它们，但不知道从哪里开始，也不知道如何开始。

如果有其他地方对此进行了解释，请让我知道，我很高兴阅读这些例子。我不知道该怎么问才好。

回答 3

Stack Overflow用户

发布于 2014-04-07 11:29:44

创建一个列表，并使用do.call对它们运行rbind：

  do.call( rbind,  list(df1,df2,df3, ....,dfN) )

票数 1

Stack Overflow用户

发布于 2014-04-07 11:34:09

有关实际的统一:请参阅BondedDust的答案(有关实现基本相同目的的更多扩展内容，请参阅here)。

在对EVENT_TYPE数量元素进行排序和排名方面，您有没有看过?as.factor()？如果您能解释一下您希望如何处理这些数据，我们可能会提供一个更具实质性的答案:)。

票数 1

Stack Overflow用户

发布于 2014-04-07 11:44:44

help(rbind)将帮助您入门。

您希望以数据名的形式读取数据，可能使用read.csv或read.table，然后使用rbind组合数据帧。有关解释和示例，请参阅help(data.frame)和help(rbind)。在http://www.endmemo.com/program/R/rbind.php上还有一个非常简短的例子

在组合字符串之前，不要将它们转换为因子。您可以通过在加载数据时指定strings.as.factors = False来完成此操作。

不过，一旦组合了数据帧，就可以使用d[,colnum] = as.factor(d[,colnum])将列转换为因子。这将为该列中出现的每个短语创建整数级别。如果要在数值上实际使用因子，则可能需要指定因子的使用顺序(以便大雪具有比雪更高的数字，等等)。您还需要检查缺少的值，并注意大写/小写或额外空格等因素的变化。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/22902996

复制

相似问题

问如何轻松组合数据集；如何量化文本数据
EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何轻松组合数据集；如何量化文本数据EN

回答 3

Stack Overflow用户

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问如何轻松组合数据集；如何量化文本数据
EN