« | »

2014.06.07

謎のサーバーダウン

今週ちょくちょくサーバーが知らないうちに電源OFFになるというトラブルが発生しています。

電源がOFFといっても停電のような電源が遮断されたのではなく、システムが正規の手続きで電源を遮断していますのでシステム障害を発生することはありません。 電源を再投入すれば無事起動してきます。

 

ログを追いかけると、UPS監視している仮想サーバーが真っ先にシャットダウンし始めていることから、原因はUPS(OMRON BN100XS)とサーバーとをつないでいるシリアル線の可能性大。 サーバーに使用しているIntel Server Board S1200BTSはシリアルポートを搭載していますがCentOS6.4では認識されません。

Linuxカーネルをリビルドすれば使えるようになるかもですが、面倒なのでUSBシリアル変換アダプタを使用してUPSと接続しています。

このUPSは12年以上前に購入したもの(バッテリーは定期的に交換)なので、サーバー用ソフトウェアがRedHat9までしか対応していません。

仕方ないので、仮想サーバーでRedHat9を構築、仮想シリアルデバイスから親サーバーに接続されたUSBシリアル変換機を経てUPSの状態を監視していますが、どうやらこのデータが稀に途切れている様子。

USBである以上データの保証はなされないものだから致し方無いですが、通信エラーでシステム全体がシャットダウン進行してしまうのはちょっと面倒。

まだシャットダウンすること自体は許容できます。(フェイルセーフとしては正しい機能なので)

問題は一度シャットダウンすると次電源ボタンを押さないと再起動できないこと。

もしBIOS側で自動電源投入機能があったとしても、それは電源をあらためてコンセントに繋いだ時に有効となる機能なので、シャットダウン時に電源は正常に供給されていては結果は同じ。

これを打破するにはAPU機能(自動電源投入可能)をマイコンで組んで電源ボタンOnと同じ動きを作り出さないといけないんだろうなぁ。

ちょっと面倒ですが、折を見てPICマイコンを使用してAPU機能をサーバー本体に組み込みたいと思います。

 

Trackback URL

Comment & Trackback

No comments.

Comment feed

Comment





XHTML: You can use these tags:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code class="" title="" data-url=""> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong> <pre class="" title="" data-url=""> <span class="" title="" data-url="">