我有一个CSV文件,我希望将其转换为SequenceFile,最终用于创建在集群作业中使用的NamedVectors。我一直在使用seqdirectory命令尝试创建一个SequenceFile,然后使用-nv选项将输出提供给seq2sparse以创建NamedVectors。这似乎是给出了一个很大的向量作为输出,但我最终希望我的CSV的每一行都成为一个NamedVector。我哪里错了?
发布于 2012-08-17 15:08:31
seqdirectory命令将每个文件视为一个文档,因此实际上,您只有一个文档,因此只有一个向量。要使其正常工作,您需要使CSV文件的每一行都是一个文件本身,其中文档的键是文件的名称,值是其内容。尽管如此,如果您的语料库很大,这是非常不切实际的,因为磁盘读写可能会变得非常慢。
实际上,您最好遵循我在此中分享的链接
https://stackoverflow.com/questions/11994930
复制相似问题