我想开始为大数据开发一个推荐系统,比如每天2 2GB的日志数据。出于这个目的,在Rhadoop和Apache Mahout之间,哪一个是首选的?
请从不同的方面回答这个问题,例如代码的可用性,速度等。
发布于 2016-05-31 03:02:29
如果你知道R,而且你的数据不是那么大,试试SparkR,但是大部分的R包集合都不能很好地与Spark分布式数据集成。
如果你有大数据,可以使用类似R的Scala API,那么Mahout会更好。您可以在示例数据上进行数学运算,相同的代码将自动扩展到生产大小。
https://stackoverflow.com/questions/37518866
复制相似问题