我有一个运行在AWS上的EMR集群。我看了看YARN,我发现我的4个员工有这种“不健康状态”,原因是
1/2 local-dirs are bad: /mnt/yarn; 1/1 log-dirs are bad: /var/log/hadoop-yarn/containers因此,我使用ssh进入工作节点->运行df,并确定/mnt/yarn的磁盘空间使用率为99%。此外,许多stderror和stdout文件会占用/var/log/hadoop-yarn/containers目录中的大量空间。我的问题是:删除什么是安全的,什么是不安全的?我感觉就像掉进了一个兔子洞,在阅读了几个小时之后,我仍然不知道如何在我的工作节点上释放磁盘空间。我一直在阅读有关/mnt/yarn/usercache目录的文章,该目录中的内容似乎是用于运行我的spark应用程序的“本地资源”。但在/mnt/yarn中,/mnt/yarn/usercache/hadoop/filecache和/mnt/yarn/usercache/hadoop/appcache分别占据了3%和96%的磁盘空间
发布于 2020-11-27 23:48:03
您可能需要清除此文件夹- /var/log/hadoop-yarn/apps/hadoop/logs/
在HDFS上。尝试使用hdfs dfs -ls /var/log/hadoop-yarn/apps/hadoop/logs进行查看。
在执行器上检查- /mnt/var/log/hadoop-yarn/containers的另一个选项。
应该还有另一个名称类似于"application_someId“的文件夹。这些文件夹包含已完成和正在运行的spark作业的日志。
发布于 2021-04-09 23:04:36
可以,您可以删除/mnt/var/ log /hadoop-yarn/containers中的容器文件(以及其中的日志文件)。我也遇到过类似的问题。
我删除了文件,在EMR上停止并重新启动了spark,然后我的不健康节点又回来了。
https://stackoverflow.com/questions/60142371
复制相似问题