文章/答案/技术大牛

发布

社区首页 >问答首页 >中文文本挖掘

问中文文本挖掘
EN

Stack Overflow用户

提问于 2016-03-01 15:47:33

回答 1查看 1.2K关注 0票数 0

我使用中文分词进行文本挖掘。我将数据类型更改为带有逗号和双引号的dataframe。所以单词云是很奇怪的。如下所示：

我的语法如下: inspect(d.corpus)

d.corpus <- Corpus(DataframeSource(data.frame(as.character(d.corpus))))
tdm <- TermDocumentMatrix(d.corpus, control = list(wordLengths = c(2, Inf)))
m1 <- as.matrix(tdm)
v <- sort(rowSums(m1), decreasing = TRUE)
d <- data.frame(word = names(v), freq = v)
wordcloud(d$word, d$freq, min.freq = 5, random.order = F, ordered.colors = F, 
    colors = rainbow(length(row.names(m1))))

如何修改数据？

我试着拆分语法：

d.corpus <- Corpus(DataframeSource(data.frame(as.character(d.corpus)))).

为什么as.character(d.corpus)有3行？

test1 <- as.character(d.corpus)

word-cloud

text-mining

回答 1

Stack Overflow用户

发布于 2016-03-10 15:43:06

我发现它用于循环编辑名称(V)数据。

for (i in 1:length(names(v)))
{
    names(v)[i] <- gsub('[\",]','',names(v)[i])
}

result

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/35717318

复制

相似问题

问中文文本挖掘
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问中文文本挖掘EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问中文文本挖掘
EN