首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何处理大文本数据来创建WordCloud?

如何处理大文本数据来创建WordCloud?
EN

Stack Overflow用户
提问于 2019-04-26 21:33:34
回答 1查看 729关注 0票数 0

我有一个巨大的文本数据,我需要创建它的词云。我使用一个名为word_cloudPython库来创建单词云,它是非常可配置的。问题是我的文本数据真的很大,所以一台高端计算机即使很长时间也无法完成任务。

数据首先存储在MongoDB中。由于在将数据读取到Python list时出现了Cursor问题,我将整个数据导出到了一个纯文本文件--一个简单的txt文件,它是304 MB

所以我正在寻找答案的问题是,我如何处理这些巨大的文本数据?word_cloud库需要一个String参数,该参数包含用' '分隔的整个数据,以便创建Word Cloud

附注:Python版本:3.7.1

附注:word_cloud是一个针对Python的开源Word Cloud生成器,可在GitHub:https://github.com/amueller/word_cloud上找到

EN

回答 1

Stack Overflow用户

回答已采纳

发布于 2019-04-26 22:29:26

你不需要在内存中加载所有的文件。

代码语言:javascript
复制
from wordcloud import WordCloud
from collections import Counter

wc = WordCloud()

counts_all = Counter()

with open('path/to/file.txt', 'r') as f:
    for line in f:  # Here you can also use the Cursor
        counts_line = wc.process_text(line)
        counts_all.update(counts_line)

wc.generate_from_frequencies(counts_all)
wc.to_file('/tmp/wc.png')
票数 2
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/55868784

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档