首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >如何在Spark中对一堆文档进行矢量化

如何在Spark中对一堆文档进行矢量化
EN

Stack Overflow用户
提问于 2015-03-20 02:15:23
回答 1查看 437关注 0票数 0

我是Apache Spark的新手。我有一堆文本文档,想把它们转换成稀疏TF矢量化文档。也就是说,我希望生成一个矩阵,其中列显示单词(术语),行描述文档,每个元素是术语在文档中的词频(按列显示)(按行显示)。我注意到TFHashing类做了这样的事情,但是我不知道如何使用它。

我想传递一个包含所有文本文档的文件夹,并获取一个包含稀疏矩阵的文件。此外,Spark是否支持任何类型的n-gram?例如,我的意思是使用2-gram或3-gram来标记化术语?

Apache Mahout有一个名为seq2sparse的强大工具,它可以完成我提到的所有任务,我正在寻找Spark中类似的工具。

我需要将矢量化的输出传递给LDA,这是最近发布的。

EN

回答 1

Stack Overflow用户

发布于 2015-03-20 03:27:12

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/29152100

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档