首页
学习
活动
专区
圈层
工具
发布
社区首页 >问答首页 >分布式文本聚类框架

分布式文本聚类框架
EN

Stack Overflow用户
提问于 2012-06-20 03:41:46
回答 2查看 336关注 0票数 0

我需要一个分布式文本聚类框架来支持完整文档集的算法。像carrot2 http://project.carrot2.org/这样的应用程序在处理一组文档时需要进行内存计算,因此非常耗时且非常高效。如果这种文本聚类算法,如lingo,STC,knn等能够在分布式环境下运行,那么它们的速度将会更快。有没有使用开源工具的框架,比如hazelcast http://www.hazelcast.com/,或者有没有更快、更高效的具体方法?

EN

回答 2

Stack Overflow用户

发布于 2012-06-21 01:52:00

Apache Mahout就是你要找的东西。

票数 0
EN

Stack Overflow用户

发布于 2012-07-01 03:21:33

很少有工具可以做到这一点,Mahout就是其中之一。Mahout支持3种机器学习算法,推荐,聚类和分类。曼宁所著的Mahout in action一书很好地解释了这一点。请参考博客,该博客讨论了如何使用Mahout and Hadoop distributed file system works?,该示例更侧重于推荐引擎,但它也可以应用于集群,如动作第7章中的mahout中所提到的。作为这方面的先驱,我还编写了一个Component architecture,说明如何将这些工具中的每一个组合在一起解决数据挖掘问题。

Mahout可以在独立模式下工作,也可以与Hadoop一起工作。使用哪一种方法的决定归结为需要挖掘的历史数据的大小。如果数据大小约为the和If,则通常将Mahout与Hadoop一起使用。Weka是另一个类似的开源项目。所有这些都属于一个称为机器学习框架的类别。我希望它能帮上忙。

票数 0
EN
页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持
原文链接:

https://stackoverflow.com/questions/11108197

复制
相关文章

相似问题

领券
问题归档专栏文章快讯文章归档关键词归档开发者手册归档开发者手册 Section 归档