我有一个大的data.frame (>4M行),其中一个列包含字符串。我想在每个文本字段(例如gsub)上执行几个字符串操作/匹配正则表达式。
我在想怎样才能加快行动速度?基本上,我在表演一堆
gsub(patternvector," [token] ",tweetDF$textcolumn)
gsub(patternvector," [token] ",tweetDF$textcolumn)
....我在8GB内存Mac上运行R,并试图将其移动到云端(亚马逊EC2大型实例的内存为64 8GB),但速度并不快。
我听说过几个包(bigmemory,ff),并发现了关于R 这里的高性能/并行计算的概述。
是否有人对最适合加速字符串操作的包有建议?或者知道一个解释如何应用标准R字符串函数的源(gsub,..)这些“高性能计算软件包”创建的“对象”?
谢谢你的帮忙!
发布于 2013-11-05 01:19:19
mclapply或允许并行处理的任何其他功能都应该大大加快任务的速度。如果您不使用并行处理,您只使用一个CPU,无论您的计算机有多少CPU可用。
https://stackoverflow.com/questions/19778236
复制相似问题