问R:大型数据集上的字符串操作(如何加快速度？)
EN

Stack Overflow用户

提问于 2013-11-04 22:11:27

回答 1查看 535关注 0票数 1

我有一个大的data.frame (>4M行)，其中一个列包含字符串。我想在每个文本字段(例如gsub)上执行几个字符串操作/匹配正则表达式。

我在想怎样才能加快行动速度？基本上，我在表演一堆

gsub(patternvector," [token] ",tweetDF$textcolumn)
gsub(patternvector," [token] ",tweetDF$textcolumn)
....

我在8GB内存Mac上运行R，并试图将其移动到云端(亚马逊EC2大型实例的内存为64 8GB)，但速度并不快。

我听说过几个包(bigmemory，ff)，并发现了关于R 这里的高性能/并行计算的概述。

是否有人对最适合加速字符串操作的包有建议？或者知道一个解释如何应用标准R字符串函数的源(gsub，..)这些“高性能计算软件包”创建的“对象”？

谢谢你的帮忙!

回答已采纳

发布于 2013-11-05 01:19:19

mclapply或允许并行处理的任何其他功能都应该大大加快任务的速度。如果您不使用并行处理，您只使用一个CPU，无论您的计算机有多少CPU可用。

票数 1

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/19778236

复制

相似问题

问R:大型数据集上的字符串操作(如何加快速度？)EN