HACK#56 IPMI看门狗计时器
本节使用IPMI看门狗计时器可以检查出操作系统死机。
IPMI看门狗计时器
IPMI看门狗计时器是Intelligent Platform Management Interface(IPMI)标准中使用硬件的看门狗计时器。系统死机时可以执行机器自身的重启(reset)等,从而可以提高系统的可用性。
IPMI是数家电脑相关厂商制定的标准,为了获取电脑各部位的温度、电压、风扇等状态以及控制电源等而规定的接口。其中就包括本节要介绍的看门狗计时器的标准。
它与NMI看门狗计时器(参考Hack#57)的不同之处在于可以通过硬件(IPMI)执行硬启动(hard reset)。IPMI与CPU是相互独立的,因此即使硬件出现问题也有可能恢复(硬启动)。必须在服务器上安装有IPMI才能使用它。
小贴士:笔者经常遇到的硬件故障是执行shutdown或reboot命令,界面上输出Power down.或Restarting system.等最后的信息,机器却依然处于停止状态。CPU中应当执行了shutdown或reboot命令,但由于某些原因导致未执行重启。
这种情况在非正式硬件(产品版)尤其是评估版的试验机上比较多见。这种情况下可以设置后面要介绍的nowayout参数,这样即使CPU未执行重启命令,IPMI也会进行硬启动。