サーバーまたはアプリケーションのダウンタイムは、中小企業からエンタープライズレベルのアーキテクチャまで、あらゆる規模の組織にとってミッションクリティカルな問題です。 大企業の場合、その費用を合わせると、毎年数百万ドルの損失になる可能性があります。 サーバーまたはアプリケーションが予期せず障害を起こした場合、直接的な収益への影響だけでなく、長期的な事業運営、評判、SEOにも影響が及ぶ可能性があります。 計画外の停止が原因で、企業の事業停止を余儀なくされたという極端な例さえあります。 では、ITプロフェッショナルは、このような壊滅的な事態をどのように回避するのでしょうか。 それは、ダウンタイムの一般的な原因を特定し、それを軽減するのに役立つインフラストラクチャとポリシーを設計することです。 この記事では、ダウンタイムを準備して回避し、ビジネスが依存するアプリケーションを稼働させ続ける方法について、インサイトを提供します。
過負荷
サーバーの過負荷がダウンタイムにつながる一般的な原因であることは、言うまでもありません。 アプリケーションが本番環境で実装される前に最初にテストされたときは、おそらく効果的に動作し、適切なソリューションとして受け入れられたでしょう。 しかし、同じソリューションが稼働し、ユーザーが日常業務を操作し始めると、予期せぬ需要がサーバーに深刻なストレスを与え、パフォーマンスの大幅な低下やコンポーネントの故障につながる可能性があります。
アプリケーションは、メモリ、ストレージ、データベーススペースなどのサーバーリソースを消費する可能性があります。 これに、大量のユーザーがデータにアクセスし、プロセスを実行することを組み合わせると、適切な予防策が適用されていない場合、ダウンタイムはほぼ確実に間近に迫っています。 サーバーのメモリ容量を増やすことは、データ転送速度を上げてサーバーへのストレスを軽減するのに役立ちます。 メモリ使用量、CPU使用率、ユーザー接続などのリソース/ネットワークのボトルネックを特定して排除することは、過負荷の状態を軽減するのに役立ちます。 ロードシェアリングは、サーバーの再起動後すぐに過負荷になるという状態であるサーバーのフラッピングや、システムアーキテクチャ内で雪だるま式に影響が広がる、アプリケーション内の1つのシステムまたは領域で始まるインシデントであるカスケード障害を防ぐのに役立ちます。
冗長性とフォールトトレランス
電子機器は故障します。 人々は不必要なものを抜きます。 予期せぬ出来事も起こります。 これらはすべてビジネスの現実です。 どんなに綿密な計画を立てていても、本番環境での障害を回避できる可能性は低いでしょう。 このことを考慮して、ミッションクリティカルなアプリケーションでは、すべてが少なくとも「N+1」冗長である必要があります。 N+1は、アプリケーションに必要な量(N)に加えて、常に少なくとももう1つが稼働していることを示します。 アプリケーション全体にN+1冗長性を実装することで、単一障害点が最小限に抑えられ、ビジネス継続性がより確実に保証されます。
予算とインフラストラクチャの制約により、特定のアプリケーションにとって実用的なものが制限される場合がありますが、ITチームは少なくともN+1冗長化するためにできる限りのことを行うべきです。 1台のサーバーで十分に稼働できるアプリケーションの場合、真に「N+1」冗長化され、フォールトトレラントにするには、次のものが必要になります。2台のサーバー(おそらく「Blue/Green」デプロイメントモデルを使用)、「Blue/Green」の詳細については、このTechTargetの記事をご覧ください)、それぞれに冗長電源があり、2つの別々のUPSシステムに接続され、2つの別々のAC電源回路に接続され、2つの別々の発電機によってバックアップされ、冷却システムに冗長性が組み込まれています。
人的エラー
ITスペシャリストによってダウンタイムの主要な原因と広く見なされている人的エラーは、悲惨な状況につながる可能性がある要因です。 2017年3月、Amazonは、Simple Storage Service (S3)が2月28日にWebサービスの障害に見舞われたと報告しました。具体的には、クラウドおよびデータセンターインフラストラクチャ事業で、4時間のサービス中断につながりました。 Cyenceによる分析では、この期間中にS&P 500企業がその結果として1億5000万ドルの損失を被ったことが判明しました(出典:Business Insider)。 根本原因を特定するための調査が開始された後、Amazonは次の回答を提供しました(出典:Amazon)。
「Amazon Simple Storage Service (S3)チームは、S3請求システムが予想よりも遅く進行している原因となっている問題をデバッグしていました。午前9時37分(太平洋標準時)に、確立されたプレイブックを使用している承認されたS3チームメンバーが、S3請求プロセスで使用されるS3サブシステムの少数のサーバーを削除することを目的としたコマンドを実行しました。残念ながら、コマンドへの入力の1つが誤って入力され、意図したよりも多くのサーバーが削除されました。誤って削除されたサーバーは、他の2つのS3サブシステムをサポートしていました。」
要するに、従業員が深刻な結果を招く誤入力をしてしまったということです。 この障害の影響は、Disney、Target、Nikeなどの主要なオンライン小売業者に及び、ウェブページの読み込み時間が通常数秒であるのに対し、30秒以上かかる事態となりました。 S3は99.999999999%の耐久性を提供するように設計されていますが、これは人的エラーがいかに適切に設計されたシステムでさえもダウンさせうるかを証明するものです。
残念ながら、ヒューマンエラー問題に対する単一の解決策はありません。従業員を特定の役割で訓練し、ミッションクリティカルなプロセスについて警告することは、エラー防止メンテナンスにおいて依然として重要な要素です。ただし、これは新入社員に限定されるものではなく、既存の長期在籍者に対する再訓練は、彼らの行動の重要性を強く思い出させるものとなります。機密リソースやシステムへのアクセス制限は、訓練の利点をさらに高めます。選ばれた熟練したスタッフのみが重要な監視とタスクを実行できるようにすることで、アプリケーションのインフラストラクチャを保護できます。物理的およびソフトウェアベースのセキュリティと監視は、ヒューマンエラー(または悪意のあるユーザー)によるインシデントの発生を防ぐのに役立ち、最大限の稼働時間とパフォーマンスを維持するための貴重なツールです。さらに、災害復旧計画を設計、実装、テストすることで、エラー発生時の損失を最小限に抑えることができます。災害シミュレーションは、リアルタイムの原因と結果の状況を示し、反応時間と判断力を向上させるとともに、ユーザーの行動の重大さを改めて認識させるのに役立ちます。
電源
コンピューティング環境全体に一貫して高品質な電力が供給されることの重要性を見過ごすことはできません。2017年5月、ブリティッシュ・エアウェイズは、休日の週末の1日、400便以上を欠航せざるを得なくなり、75,000人の乗客が足止めされました(出典:The Register)。その後の調査により、問題の原因は、技術者が電源を抜き差しした際に発生した電力サージであり、ITインフラストラクチャのミッションクリティカルなコンポーネントが損傷したことが判明しました。このケースは人的ミスと電力の両方の側面がありますが、データセンターアプリケーションにとって安定した電圧がいかに重要であるかを改めて強調するものです。
無停電電源装置(UPS)システムは、ダウンタイムにつながる電力損失状況を防ぐための不可欠なコンポーネントです。多くのメーカーから、さまざまなレベルの電力容量、利用可能なバッテリーバックアップ時間、およびコンセント構成が提供されており、ネットワークおよびデータセンターの管理者は、ニーズに合った適切なソリューションを選択できます。オンライン二重変換技術(AC電源をDC電源に変換し、再びACに変換することで、有害な高調波歪み、電圧変動、および波形異常を除去)などの機能は、接続された機器の動作寿命を延ばすことができる別のレベルの保護を追加します。エンタープライズレベルのユニットは、電力および負荷監視、電力イベントのネットワーク通知、および制御可能なコンセントを介した負荷電力管理へのリモートアクセスを可能にする、UPSへのネットワーク通信を提供します。
発電機は、施設の一般的な電力要件に重点を置いた大容量のバックアップ装置ですが、コンピュータグレードのAC出力を備えたモデルは、真の電力問題が解決されるまで、UPSがそれをユーティリティ電源の代替として利用することを可能にします。一部のアプリケーションでは、停電時にバッテリーバックアップが少量しか実行時間を供給する必要がないため、発電機を起動して、ビジネスの継続的な運用に必要なコンポーネントに電力を供給することができます。
高可用性サーバー
高可用性デプロイメントモデルの基本的な構成要素は、稼働時間を念頭に置いて構築されたサーバーハードウェアです。プレミオの高可用性サーバーは、ゼロダウンタイムを念頭に設計されています。冗長電源、ファン、ホットスワップ可能なHDDまたはSSDストレージベイ、業界で信頼されているIntel PCSDサーバーボード、ツールレス設計などの機能を備えたプレミオのサーバーは、ダウンタイムを最小限に抑え、サーバーレベルでのフォールトトレランスを実現するために、独自の装備とゼロから構築されています。
結論として、ダウンタイムを防ぐ単一の解決策はありませんが、単一障害点を特定し、フォールトトレランスを念頭に置いたソリューションを構築することで、組織は稼働時間とビジネス継続性を最大化できます。今日、お問い合わせいただき、「ゼロダウンタイム」ソリューションの構築を開始してください。当社は、高密度容量オプションと業界をリードする処理速度で、安全で安定した環境を開発するのに役立つ、数多くのコンピューティング設計のニーズに対応する幅広いサーバーオプションを提供しています。
[vc_empty_space height="30px"][vc_column_text el_class="bp-maroon-solid"]
[/vc_column_text][vc_empty_space height="40px"]
