首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >将text2vec dtm写入文件(csv或svmlight)

将text2vec dtm写入文件(csv或svmlight)
EN

Stack Overflow用户
提问于 2016-11-27 02:32:54
回答 1查看 370关注 0票数 1

我今天偶然看到了text2vec包,这正是我需要解决特定问题的地方。但是,我还没有弄清楚如何将用text2vec创建的dtm导出到某种输出文件中。我的最终目标是使用text2vec在R中生成特性,并将生成的矩阵导入H2O以供进一步建模。H2O可以读取CSV或SVMLight格式。

我创建的第一个是987753 x 8806 sparse Matrix of class "dgCMatrix", with 3625049 entries,所以它很大。不可能使用as.matrix()将其写入CSV,因为它太大了。我想我也许可以轻松地把它写成SVMLight格式,但是还没有找到一个能工作的库。有谁有其他选项可以将这个输出输出到我可以读入H2O的文件中呢?

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2016-11-27 05:11:14

有几个软件包可以做到这一点。看看https://github.com/Laurae2/sparsity - imho最有希望的地方:

代码语言:javascript
复制
library(text2vec)
library(sparsity)
data("movie_review")
N = 5000
tokens = movie_review$review[1:N] %>% tolower %>% word_tokenizer
it = itoken(tokens, progressbar = T)
dtm = create_dtm(it, hash_vectorizer())
write.svmlight(dtm, labelVector = movie_review$sentiment, file = "dtm.svmlight")
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/40825234

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档