我已经使用Mesosphere中的CloudFormation模板设置了一个Mesos集群。在集群启动后,事情运行得很好。
我最近注意到Mesos仪表板中没有列出任何从节点。EC2控制台显示从设备正在运行并通过健康检查。我重新启动了集群上的节点,但这没有帮助。我ssh进入其中一个从服务器,并注意到mesos-slave服务没有运行。已执行sudo systemctl status dcos-mesos-slave.service,但无法启动服务。
查看了/var/log/mesos/和tail -f mesos-slave.xxx.invalid-user.log.ERROR.20151127-051324.31267,发现了以下内容...
F1127 05:13:24.242182 31270 slave.cpp:4079] CHECK_SOME(state::checkpoint(path, bootId.get())): Failed to create temporary file: No space left on device
但是df -h和free的输出显示还有大量的磁盘空间。
这让我想知道,为什么它会抱怨没有磁盘空间?
发布于 2015-11-27 14:35:42
好了,我想通了。
在长时间运行Mesos或频繁加载时,因为Mesos使用/tmp/mesos/作为work_dir,所以/tmp文件夹将没有剩余的磁盘空间。您知道,文件系统只能保存一定数量的文件引用(Inode)。在我的例子中,从站从/var/lib/docker/tmp中的图像拉取中收集了大量的文件块。
要解决此问题:
1)删除/tmp下的文件
2)设置不同的work_dir位置
发布于 2017-11-23 20:28:52
运行以下命令是一个很好的实践
docker rmi -f $(docker images | grep "<none>" | awk "{print \$3}")这样,您将通过删除未使用的docker图像来释放空间
https://stackoverflow.com/questions/33950777
复制相似问题