我现在正在寻找一种方法来监控服务器硬件,比如风扇/电源/等等。问题是,我们有非常动态的环境-服务器自动打开/关闭-甚至每天几次,取决于负载。
我为我们的超级微型服务器创建了测试板(我们只有3-4种类型,所以它们非常具体),其中包含风扇速度检查(0表示扇死了)。不过,每次我关掉服务器风扇的速度也是0。
因此,我现在正在研究如何通过ipmi获取电源状态(或服务器正在运行的任何其他指示符),以便仅在服务器运行时发送zabbix警报。
在ipmi上,需求是不协调的,因为我们以这种方式监视一些我们无法访问的服务器。
我想避免编写一个运行类似于: ipmitool电源状态的脚本。Zabbix有一个amaizing集成,所以我想尽可能多地使用它。
ipmitool传感器返回:
root@virt1:~# ipmitool sensor
System Temp | 28.000 | degrees C | ok | -9.000 | -7.000 | -5.000 | 75.000 | 77.000 | 79.000
CPU Temp | 0x0 | discrete | 0x0000| na | na | na | na | na | na
FAN 1 | 8355.000 | RPM | ok | 400.000 | 585.000 | 770.000 | 29260.000 | 29815.000 | 30370.000
FAN 2 | 8355.000 | RPM | ok | 400.000 | 585.000 | 770.000 | 29260.000 | 29815.000 | 30370.000
FAN 3 | 8725.000 | RPM | ok | 400.000 | 585.000 | 770.000 | 29260.000 | 29815.000 | 30370.000
FAN 4 | na | RPM | na | na | na | na | na | na | na
CPU Vcore | 1.144 | Volts | ok | 0.640 | 0.664 | 0.688 | 1.344 | 1.408 | 1.472
+3.3VCC | 3.280 | Volts | ok | 2.816 | 2.880 | 2.944 | 3.584 | 3.648 | 3.712
+12 V | 12.031 | Volts | ok | 10.494 | 10.600 | 10.706 | 13.091 | 13.197 | 13.303
DIMM | 1.544 | Volts | ok | 1.152 | 1.216 | 1.280 | 1.760 | 1.776 | 1.792
+5 V | 5.216 | Volts | ok | 4.096 | 4.320 | 4.576 | 5.344 | 5.600 | 5.632
+5VSB | 5.056 | Volts | ok | 4.096 | 4.320 | 4.576 | 5.344 | 5.600 | 5.632
VBAT | 3.232 | Volts | ok | 2.816 | 2.880 | 2.944 | 3.584 | 3.648 | 3.712
+3.3VSB | 3.280 | Volts | ok | 2.816 | 2.880 | 2.944 | 3.584 | 3.648 | 3.712
AVCC | 3.280 | Volts | ok | 2.816 | 2.880 | 2.944 | 3.584 | 3.648 | 3.712
Chassis Intru | 0x0 | discrete | 0x0000| na | na | na | na | na | na
PS Status | 0x1 | discrete | 0x01ff| na | na | na | na | na | na
root@virt1:~#发布于 2014-04-11 08:18:11
一个想法可以是查询电源的开关传感器。它是一个离散的传感器,参见https://www.zabbix.com/documentation/2.2/manual/config/items/itemtypes/ipmi,有一个例子说明如何分析离散传感器的状态。
如果无法监视电源开关传感器,则可以读取模拟电压传感器,例如"+5V“(或很少有更多的电压传感器)。如果电压接近于零,服务器可能会被关闭(或者电源已经故障)。
发布于 2014-04-04 08:25:46
在Zabbix2.2的默认安装中,有两个模板:"Template IPMI Intel SR1530“和"Template IPMI Intel SR1630”。它们都包含一个"Power“项,它查询"power”传感器的值,这似乎正是您所需要的。如果没有,请描述您正面临的问题,该传感器。
https://serverfault.com/questions/586506
复制相似问题