pinpoint数据无法展示

iostat查看io很高

上主机查看日志:
pinpoint后端日志:

连接habse获取数据有超时情况
查看对应habsemater及region节点的日志发现:

大量时间在处理WALs日志

日志中有 java.io.IOException: Got error for OP_READ_BLOCK 这种日志通常是由 HDFS 数据块损坏、DataNode 不可用、HBase 配置问题或资源瓶颈引起的。
java.io.IOException: Got error for OP_READ_BLOCK,常伴随 HDFS 错误如 BlockMissingException 或 CorruptHFileException。在region主机上有大量的此类日志,该报错也是导致io突增的原因

首先,查看 HBase 日志文件(尤其是 RegionServer 日志),识别是否有关于 HFile、WALs 或 DataNode 连接的错误。
HFile Trailer, Corrupt HFile, WALs, BlockMissingException。通过 hdfs fsck 命令检查文件系统的健康状况。特别关注损坏的文件、缺失的块和副本数量:
hdfs fsck /hbase/data/default -files -blocks -locations上述步骤可以查看整体文件系统状态,如果想要查看具体文件状态,可以拿日志中报错的文件去查
hdfs fsck /hbase/data/default/ApplicationMapStatisticsCaller_Ver2/e394c96cc95e7459e154c54aa0b479dc/C/0fb1de2df47d4809a86c4e2ba94f10b5 -files -blocks -locationsCORRUPT)。MISSING)。UNDER_REPLICATED)。 在修复之前结果是missing,是有缺失的数据块,
确认 DataNode 是否正常工作,并检查网络连接是否通畅:
如果在 hdfs fsck 中检测到损坏的 HFile 或缺失的块:
修复整个目录:
因为日志报错中涉及到了多个文件,所以选择修复整个目录
hdfs fsck /hbase/data/default -delete -files -blocks修复后验证该数据块
hdfs fsck /hbase/data/default/ApplicationMapStatisticsCaller_Ver2/e394c96cc95e7459e154c54aa0b479dc/C/0fb1de2df47d4809a86c4e2ba94f10b5 -files -blocks -locations或者直接查看hdfs数据块整体是否为health
观察日志是否还有异常,验证服务是否正常,io是否还有异常


hdfs fsck 来检查 HDFS 上的健康状况。该故障的解决过程主要包括:
hdfs fsck 修复损坏的数据块。通过这些步骤,有效地排除数据损坏和 HDFS 资源瓶颈的问题,并确保 HBase 正常运行。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。
原创声明:本文系作者授权腾讯云开发者社区发表,未经许可,不得转载。
如有侵权,请联系 cloudcommunity@tencent.com 删除。