首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >数据过多的文本挖掘

数据过多的文本挖掘
EN

Stack Overflow用户
提问于 2013-09-19 12:12:26
回答 1查看 251关注 0票数 0

我正在尝试使用R语言提供的文本挖掘工具,但是我面临以下问题,因为我是在一台旧机器上运行的。

我想要创建一个文档术语矩阵使用tm包和语料库功能。当我创建DTM时,我会收到一个可以分配4GB内存的错误(我的机器有2GB的内存)。一般来说,你是如何面对这样一个问题的?例如,在一般应用程序中,DTM应该比我的矩阵大得多。是否有一种使用SQL数据库而不是使用内存的方法?

//我研究了一篇关于使用sqldf库创建临时sqlite数据库的相关文章。但在这种情况下,我甚至不能创建矩阵。

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2013-09-19 12:15:59

一般来说,你是如何面对这样一个问题的?

使用稀疏矩阵数据结构。没有它,文本挖掘几乎是不可能的。有了一个,我可以在几百MB内处理1000秒的1000秒文档。

我自己并不在R中工作,但它肯定会有一个稀疏矩阵包。

票数 4
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/18894320

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档