首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >Lucene.vectors:如何设置标签字段

Lucene.vectors:如何设置标签字段
EN

Stack Overflow用户
提问于 2014-06-05 18:12:19
回答 1查看 166关注 0票数 0

我正在尝试使用mahout的lucene.vectors从lucene索引中提取数据。该索引包含由Nutch抓取的网页内容。被索引的一些字段是:标题、url、id、文本和类别。

我知道我可以使用lucene.vectors从索引中获取数据并将其转换为向量。然而,我不能理解的是,如何告诉这个工具Lucene中的哪个字段包含标签。对于我的场景,category字段是label字段。

我使用的是mahout 0.9。

提前谢谢你,阿米尔

EN

回答 1

Stack Overflow用户

发布于 2014-06-13 00:43:13

您可能需要一个中间步骤,首先将lucene索引转换为一个序列文件,该文件采用键、值对,其中key代表您的标签。SequenceFilesFromLuceneStorage.java允许您这样做。说明内容如下-

/** *使用指定的id字段作为关键字,以内容字段作为值,从Lucene索引生成序列文件。*使用{@link LuceneStorageConfiguration} bean配置该类。*/

我相信引用只是将所有文本放入一个向量( lucene.vector - https://mahout.apache.org/users/basics/creating-vectors-from-text.html)中。您需要一个<Text, VectorWritable>格式的序列文件,才能拥有一个带有标签的向量。

然后,您可以简单地读取序列文件并获得向量和标签。如果想要计算TFIDF,可以使用seq2sparseSparseVectorsFromSequenceFiles.java

或者,您也可以手动完成此操作,方法是先提取标签,然后将其余部分发送到lucene.vector。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/24057388

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档