问将CSV转换为SequenceFile
EN

Stack Overflow用户

提问于 2012-08-17 04:25:21

回答 1查看 7.5K关注 0票数 5

我有一个CSV文件，我希望将其转换为SequenceFile，最终用于创建在集群作业中使用的NamedVectors。我一直在使用seqdirectory命令尝试创建一个SequenceFile，然后使用-nv选项将输出提供给seq2sparse以创建NamedVectors。这似乎是给出了一个很大的向量作为输出，但我最终希望我的CSV的每一行都成为一个NamedVector。我哪里错了？

sequencefile

hadoop

mahout

回答 1

Stack Overflow用户

回答已采纳

发布于 2012-08-17 15:08:31

seqdirectory命令将每个文件视为一个文档，因此实际上，您只有一个文档，因此只有一个向量。要使其正常工作，您需要使CSV文件的每一行都是一个文件本身，其中文档的键是文件的名称，值是其内容。尽管如此，如果您的语料库很大，这是非常不切实际的，因为磁盘读写可能会变得非常慢。

实际上，您最好遵循我在此中分享的链接

票数 2

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11994930

复制

相似问题

问将CSV转换为SequenceFile
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将CSV转换为SequenceFileEN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问将CSV转换为SequenceFile
EN