文章/答案/技术大牛

发布

问分布式文本聚类框架
EN

Stack Overflow用户

提问于 2012-06-20 03:41:46

回答 2查看 336关注 0票数 0

我需要一个分布式文本聚类框架来支持完整文档集的算法。像carrot2 http://project.carrot2.org/这样的应用程序在处理一组文档时需要进行内存计算，因此非常耗时且非常高效。如果这种文本聚类算法，如lingo，STC，knn等能够在分布式环境下运行，那么它们的速度将会更快。有没有使用开源工具的框架，比如hazelcast http://www.hazelcast.com/，或者有没有更快、更高效的具体方法？

java

cluster-analysis

hazelcast

knn

回答 2

Stack Overflow用户

发布于 2012-06-21 01:52:00

Apache Mahout就是你要找的东西。

票数 0

Stack Overflow用户

发布于 2012-07-01 03:21:33

很少有工具可以做到这一点，Mahout就是其中之一。Mahout支持3种机器学习算法，推荐，聚类和分类。曼宁所著的Mahout in action一书很好地解释了这一点。请参考博客，该博客讨论了如何使用Mahout and Hadoop distributed file system works?，该示例更侧重于推荐引擎，但它也可以应用于集群，如动作第7章中的mahout中所提到的。作为这方面的先驱，我还编写了一个Component architecture，说明如何将这些工具中的每一个组合在一起解决数据挖掘问题。

Mahout可以在独立模式下工作，也可以与Hadoop一起工作。使用哪一种方法的决定归结为需要挖掘的历史数据的大小。如果数据大小约为the和If，则通常将Mahout与Hadoop一起使用。Weka是另一个类似的开源项目。所有这些都属于一个称为机器学习框架的类别。我希望它能帮上忙。

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11108197

复制

相似问题

问分布式文本聚类框架
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分布式文本聚类框架EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问分布式文本聚类框架
EN