我试图在不同的站点上为apache星火集群选择一个拓扑。星火有自己的意识能力吗?
例如,假设集群中有俄勒冈州和槟城的工人。
现在,当提交应用程序时,该应用程序从俄勒冈州加载数据,然后将其处理并保存回俄勒冈州。俄勒冈州的工人会被优先考虑(如果他们是自由的)?还没有找到关于这个问题的文件。
发布于 2016-08-19 12:25:10
如前所述,https://jaceklaskowski.gitbooks.io/mastering-apache-spark/content/spark-data-locality.html
星星之火依赖于数据局部性,也就是数据放置或与数据源的接近,这使得火花作业对数据所在位置敏感。因此,如果数据来自HDFS,那么让Spark在Hadoop纱线集群上运行是很重要的。数据系统本身可能是地理感知的,例如卡桑德拉:Does Spark use data locality? http://www.slideshare.net/RussellSpitzer/spark-cassandralocality。
https://stackoverflow.com/questions/39038915
复制相似问题