问数据过多的文本挖掘
EN

Stack Overflow用户

提问于 2013-09-19 12:12:26

回答 1查看 251关注 0票数 0

我正在尝试使用R语言提供的文本挖掘工具，但是我面临以下问题，因为我是在一台旧机器上运行的。

我想要创建一个文档术语矩阵使用tm包和语料库功能。当我创建DTM时，我会收到一个可以分配4GB内存的错误(我的机器有2GB的内存)。一般来说，你是如何面对这样一个问题的？例如，在一般应用程序中，DTM应该比我的矩阵大得多。是否有一种使用SQL数据库而不是使用内存的方法？

//我研究了一篇关于使用sqldf库创建临时sqlite数据库的相关文章。但在这种情况下，我甚至不能创建矩阵。

回答已采纳

发布于 2013-09-19 12:15:59

一般来说，你是如何面对这样一个问题的？

使用稀疏矩阵数据结构。没有它，文本挖掘几乎是不可能的。有了一个，我可以在几百MB内处理1000秒的1000秒文档。

我自己并不在R中工作，但它肯定会有一个稀疏矩阵包。

票数 4

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/18894320

复制

相似问题

问数据过多的文本挖掘EN