文章/答案/技术大牛

发布

社区首页 >问答首页 >什么是适合我的？generateAllGrams()或generateCollocations()对我来说足够了吗？

问什么是适合我的？generateAllGrams()或generateCollocations()对我来说足够了吗？
EN

Stack Overflow用户

提问于 2011-03-14 15:08:26

回答 1查看 717关注 0票数 0

我正在开发一个基于wordnet的文档summarizer.in项目，我需要这个项目来提取搭配。我尝试了尽可能多的研究，但由于我以前没有使用过Mahout，所以我很难理解CollocDriver.java是如何工作的(在API上下文中)。

在浏览网页的时候，我发现了这个： Mahout Collocations

这就是问题所在:我有一个POSTagged输入文本。我需要识别其中的搭配。我有collocdriver.java code..now，我需要知道如何使用它。对于我的摘要生成器中的子任务，使用generateAllGrams()方法还是只使用generateCollocations()方法就足够了。？？

最重要的是如何使用它？我提出这个问题是因为我承认，我不太了解API，

我还得到了一个路径，这两个实现看起来有点像different..the输入，对于grepcode版本是字符串形式，在原始版本中是Path对象的形式……

我的问题是:输入参数中的configuration对象是什么?如何使用？源/目标将是字符串(如grepcode)还是路径(如原始)？？输出结果是什么？

我在collocdriver程序上做了一些进一步的研究和开发...我发现它使用了一个序列文件，然后是向量生成...我想知道这个序列文件/向量生成works..plz有什么帮助。

mahout

summarization

回答 1

Stack Overflow用户

发布于 2011-03-22 13:05:12

要使用mahout获得搭配，您需要遵循一些简单的步骤

1)您必须从您的输入文本文件生成序列文件。

/bin/mahout seqdirectory -i /home/developer/Desktop/colloc/ -o /home/developer/Desktop/colloc/test-seqdir -c UTF-8 -chunk 5

2)从序列文件生成搭配有两种方式。

a)Convert sequence file to sparse vector and find out the collocation
b)Directly find out the collocation from the sequence file (with out creating the sparse vector)

3)在这里，我正在考虑选择b。

/bin/mahout org.apache.mahout.vectorizer.collocations.llr.CollocDriver -i /home/developer/Desktop/colloc/test-seqdir -o /home/developer/Desktop/colloc/test-colloc -a org.apache.mahout.vectorizer.DefaultAnalyzer -ng 3 -p

只需查看输出文件夹，您需要的文件就在那里！(序列文件格式)

/bin/mahout seqdumper -s /home/developer/Desktop/colloc/test-colloc/ngrams/part-r-00000 >> out.txt将为您提供文本输出！

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/5295731

复制

相似问题

问什么是适合我的？generateAllGrams()或generateCollocations()对我来说足够了吗？
EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是适合我的？generateAllGrams()或generateCollocations()对我来说足够了吗？EN

回答 1

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问什么是适合我的？generateAllGrams()或generateCollocations()对我来说足够了吗？
EN