首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >R:大型数据集上的字符串操作(如何加快速度?)

R:大型数据集上的字符串操作(如何加快速度?)
EN

Stack Overflow用户
提问于 2013-11-04 22:11:27
回答 1查看 535关注 0票数 1

我有一个大的data.frame (>4M行),其中一个列包含字符串。我想在每个文本字段(例如gsub)上执行几个字符串操作/匹配正则表达式。

我在想怎样才能加快行动速度?基本上,我在表演一堆

代码语言:javascript
复制
gsub(patternvector," [token] ",tweetDF$textcolumn)
gsub(patternvector," [token] ",tweetDF$textcolumn)
....

我在8GB内存Mac上运行R,并试图将其移动到云端(亚马逊EC2大型实例的内存为64 8GB),但速度并不快。

我听说过几个包(bigmemoryff),并发现了关于R 这里的高性能/并行计算的概述。

是否有人对最适合加速字符串操作的包有建议?或者知道一个解释如何应用标准R字符串函数的源(gsub,..)这些“高性能计算软件包”创建的“对象”?

谢谢你的帮忙!

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-11-05 01:19:19

mclapply或允许并行处理的任何其他功能都应该大大加快任务的速度。如果您不使用并行处理,您只使用一个CPU,无论您的计算机有多少CPU可用。

票数 1
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/19778236

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档