但是，Hadoop已经决定了每个节点上有哪些数据(以及其中有多少数据)。根据源数据的不同，在分发到节点之前预先随机化可能是不现实的。此外，每个节点上的观测值数量不再是RF算法的参数，它由Hadoop配置控制，以确定数据的分布方式和节点上的数据冗余程度。在没有特别注意的情况下，样本偏差很容易进入每个树(专家)模型。

不过，应该可以跨多个hadoop节点并行化单个树( CART )，因为CART中的二进制递归分区所需的核心计算，例如计算手段(总和除以计数)，误差函数(方差，基尼等)应该可以写入map reduce。这不是微不足道的，因为节点需要非常健谈才能工作-发送对原始数据样本的子节点进行分区的索引，然后在子节点上递归。我认为这可以适用于非常庞大的数据集，但对于那些已经“适合”到单个工作的内存中的数据集，它将会慢得多。

革命分析最近确实发布了他们的版本或R在Hadoop集群上实现了决策树。我还没有尝试过，但看看它在各种大型数据集上的表现会很有趣。

这是链接：Revolution Analytics Brings Big Data Decision Trees and New Hadoop Support to Predictive Analytics

票数 0

页面原文内容由Stack Overflow提供。腾讯云小微IT领域专用引擎提供翻译支持

原文链接：

https://stackoverflow.com/questions/11841531

复制

相似问题

问在Hadoop Mapreduce上有决策树算法的实现吗？
EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Hadoop Mapreduce上有决策树算法的实现吗？EN

回答 2

Stack Overflow用户

Stack Overflow用户

社区

活动

圈层

关于

腾讯云开发者

热门产品

热门推荐

更多推荐

问在Hadoop Mapreduce上有决策树算法的实现吗？
EN