概要
システム運用管理者や開発者にとって、電源や空調は水や空気と同じように「あって当たり前」の存在ではないでしょうか。しかし近年のサーバー高密度化や様々な対策要求に伴い、かつての汎用機(レガシー)のような、各種設備や温度・湿度をはじめとする環境の高度な監視・制御が必要になりつつあります。財団法人日本情報処理開発協会(以下、JIPDEC)の統計では、地震・火災や電源・空調など設備対策を必要とするものに起因するシステム停止原因の割合は約3割に上り、システム安定稼働対策の最大の要因となっています。一方で、設備は総務やビル管理業者・設備業者に任せきりで、詳細は知らないという例が多いと聞きます。本当にそれで良いのでしょうか。本稿では、経験に基づきこれらの実態について解き明かしていきます。
各社のシステムや事情は様々です。しかしそれらに合わせた設備・環境管理は急務です。前回書きましたように、これにはかなりの幅と深さがあるとともに、サーバー数や機種変更等により変化してしまいます。システム運用サイドからこれをコントロールするのは並大抵ではありません。
人と異なり、機械は意外に敏感です。人間は個人差があるものの、温度・湿度が変化しても着るもので調整したり我慢したりできます。一方機械は、ある程度の幅の条件下(たとえば温度)では、表面上問題なく動きます。しかし限界点を超えると急にダウンしたり、そうでなくとも耐久性に差が付いてくるのです。
実際にこんなことがありました。あるお客様から「特定のサーバーがハードエラーを頻発して、ついに壊れた」との連絡が入りました。何ヶ月か後に、同じお客様から「壊れたものを新品に交換したのだけれど、そのサーバーだけが同じ症状で再度壊れた」と聞きました。「サーバーメーカーに聞いても回答してくれない」とのことでした。このサーバーにはしっかりお客様購入のUPSも付いています。このお客様の設備・環境は私がサポートしていましたので、温度・湿度の管理はしっかりされています。お客様もそれを認識していましたので、サーバーの故障原因は設備や環境ではないと思っておられました。ところが「ひとつだけ気になること」がありました。そこでその点を有償にて調査させて頂くようお願いして2ヶ月後、証拠の画像とともに数センチに及ぶレポートにまとめて、調査結果と対策案をご報告しました。原因は「高調波に起因する電圧波形歪み(電源品質劣化)」でした。さらにお客様手配のUPSが、それを助長するような動きをしていたことまで突き止めました。
私はこれに「電圧波形歪みがサーバーを破壊するメカニズム」の図解を追加しました。この図解作成のために破損したサーバーメーカーに問い合わせたのですが、明解な回答は得られませんでした。そこで私がお付き合いしているUPSメーカーや空調機メーカー(高調波問題に強い)の技術者と直接何回も意見交換し、最終的には技術士の先生にも確認しました。高調波や電圧歪みを計測器で調査することは可能ですが、データや電気の専門用語を並べてもシステム運用のお客様には理解して頂けません。そもそもお客様が知りたかったのは「なぜ特定のサーバーだけが壊れたのか」なのですから。
この案件では後日談があります。このお客様は工場だったので、電源供給は電気室が主管していました。電源品質が問題となれば、当然電気室の方と調整することになります。しかし電気室の主任さんは「この工場は進相コンデンサがあるから高調波問題は起こるわけが無い」と言って聞いてくれません。確かに進相コンデンサの構成部品である直列リアクトルは高調波対策品ですが、条件によっては対策にならない場合もあることをご存知なかったようです。結局IT業界にいる私が、電気室の主任さんにご説明する羽目になってしまいました。大体「進相コンデンサ」とか「直列リアクトル」なんてご存知ですか?!
このきっかけであった「ひとつだけ気になること」とは、ある信号でした。この信号は、私がお客様にご提供した設備監視制御システム(計装機器)から発信されたものです。この装置からは、温度などの環境異常や空調機などの設備異常、火災予兆の通報等様々な信号がメールと機械音声で飛んできます。私はこのうち「ある信号」に着目して徹底解析し、仮説を立てたうえで検証したのです。これができたのは、自ら設計した監視制御システムだったからです。このシステムからどんな時にどんな信号が発信されるか、はっきり知っています。同じ信号でも、出方やタイミングによって無視して良い場合と即応しなければならない場合があります。もちろんこのあたりは、システム完成時及び運用フォロー時に、お客様にご説明してあります。私はお客様にすべて正直にお話しします。そうしないとお客様が一番困るからです。
そうそう、この「ある信号」にも逸話(大袈裟!)があります。実はこの信号は装置から標準的には発信されないものだったのです。これをシステム設計時に発見したので、その装置メーカーの技術者を訪問して、信号がきちんと発信されるよう、トランジスタと抵抗を組み合わせた簡単な回路をその場で検証し、システムに追加したのでした。
でもこんなややこしいことはお客様にとってはどうでもよく、結果として運用が安定稼働させられるかが問題です。ただシステムを安定稼働させるための仕組みというのは、実は上述のようないろんな仕掛けが必要なのです。たとえばいざという時、設備にフェイルセーフ機能があれば、システム停止という最悪の事態を避けることもできます。このような仕掛けもご提供しています。
システム運用としてどんな場合にどのようにして欲しいか、設備や計装を設計する人はなかなかわかってくれません。その現状と理由はもうおわかり頂けたと思います。このような状況下で問題をクリアするためには、それぞれの業界に通じたトータルコーディネータが必要になります。要件定義(Action)、設計(Plan)、運用(Do)、改善評価(Check)を同じ土俵(レイヤー)の上で行わなければ、どこかに不具合が出るのです。
このテーマにご興味のある方、現在まさにお困りの方は是非お問い合わせ下さい。ご要望やご事情・ご予算に合わせて最適な設備環境をご提案し、システムの安定稼働を実現することでみなさまに安心と課題解決という結果をお届けいたします。
※本文中の引用に関しましては、日経BP様・JIPDEC様の許可を得ております。
連載一覧
筆者紹介
1961年生まれ、宮城県出身。
約3年間公務員勤務の後、1987年から20年間、大手警備会社のIT子会社にて主にシステム運用管理を担当し、大型汎用機のプリンタレーザー化やA-AUTO・A-SPOOL等の導入を主管。
2002年から同社データセンターの設備管理を担当してISMS認証取得や旧安対(安全対策実施事業所認定)継続に関わるとともに、ミニデータセンターとも言われる総合災害対策・セキュリティ対策商品(大型金庫内にサーバー稼働空間を構築したもの)の技術企画・設計監理・運用支援や、電算室構築企画・設計に携わった。
2007年4月、お客様サイドに立った電算室等の設備・環境の設計監理、運用支援を主業務とするデボウトスキル株式会社を設立 代表取締役に就任。
コメント
投稿にはログインしてください