我正在尝试使用R语言提供的文本挖掘工具,但是我面临以下问题,因为我是在一台旧机器上运行的。
我想要创建一个文档术语矩阵使用tm包和语料库功能。当我创建DTM时,我会收到一个可以分配4GB内存的错误(我的机器有2GB的内存)。一般来说,你是如何面对这样一个问题的?例如,在一般应用程序中,DTM应该比我的矩阵大得多。是否有一种使用SQL数据库而不是使用内存的方法?
//我研究了一篇关于使用sqldf库创建临时sqlite数据库的相关文章。但在这种情况下,我甚至不能创建矩阵。
发布于 2013-09-19 12:15:59
一般来说,你是如何面对这样一个问题的?
使用稀疏矩阵数据结构。没有它,文本挖掘几乎是不可能的。有了一个,我可以在几百MB内处理1000秒的1000秒文档。
我自己并不在R中工作,但它肯定会有一个稀疏矩阵包。
https://stackoverflow.com/questions/18894320
复制相似问题