我正在开发一个基于wordnet的文档summarizer.in项目,我需要这个项目来提取搭配。我尝试了尽可能多的研究,但由于我以前没有使用过Mahout,所以我很难理解CollocDriver.java是如何工作的(在API上下文中)。
在浏览网页的时候,我发现了这个: Mahout Collocations
这就是问题所在:我有一个POSTagged输入文本。我需要识别其中的搭配。我有collocdriver.java code..now,我需要知道如何使用它。对于我的摘要生成器中的子任务,使用generateAllGrams()方法还是只使用generateCollocations()方法就足够了。??
最重要的是如何使用它?我提出这个问题是因为我承认,我不太了解API,
我还得到了一个路径,这两个实现看起来有点像different..the输入,对于grepcode版本是字符串形式,在原始版本中是Path对象的形式……
我的问题是:输入参数中的configuration对象是什么?如何使用?源/目标将是字符串(如grepcode)还是路径(如原始)??输出结果是什么?
我在collocdriver程序上做了一些进一步的研究和开发...我发现它使用了一个序列文件,然后是向量生成...我想知道这个序列文件/向量生成works..plz有什么帮助。
发布于 2011-03-22 13:05:12
要使用mahout获得搭配,您需要遵循一些简单的步骤
1)您必须从您的输入文本文件生成序列文件。
/bin/mahout seqdirectory -i /home/developer/Desktop/colloc/ -o /home/developer/Desktop/colloc/test-seqdir -c UTF-8 -chunk 5
2)从序列文件生成搭配有两种方式。
a)Convert sequence file to sparse vector and find out the collocation
b)Directly find out the collocation from the sequence file (with out creating the sparse vector)3)在这里,我正在考虑选择b。
/bin/mahout org.apache.mahout.vectorizer.collocations.llr.CollocDriver -i /home/developer/Desktop/colloc/test-seqdir -o /home/developer/Desktop/colloc/test-colloc -a org.apache.mahout.vectorizer.DefaultAnalyzer -ng 3 -p
只需查看输出文件夹,您需要的文件就在那里!(序列文件格式)
/bin/mahout seqdumper -s /home/developer/Desktop/colloc/test-colloc/ngrams/part-r-00000 >> out.txt将为您提供文本输出!
https://stackoverflow.com/questions/5295731
复制相似问题