我正在和其他4个人一起参加Kaggle比赛。我们都是在edx.org的网络公开课上认识的。
虽然我们可以使用Apache Spark引擎编写代码,但我们不知道如何设置集群并安装必要的软件来在其上运行spark。
理想情况下,我们正在寻找一个可以让我们专注于编程的自由平台。
你知道有什么平台简单易用,最好是免费的吗?如果没有,您能告诉我们如何设置必要的基础设施来参与挑战吗?
非常提前感谢您。
发布于 2015-08-04 08:16:15
使用捆绑的脚本在Linux或OS上启动standalone cluster并不是那么困难,如果您可以使用一个节点,或者每个节点都将您的开发计算机贡献给一个集群(在同一个局域网上),那么这就足够了。
当你需要扩展时,AWS EMR是非常简单的。
为了多花一点钱,Databricks提供了Spark作为一种托管服务。这意味着您真的不必过多地考虑运行集群。
https://stackoverflow.com/questions/31797326
复制相似问题