伺服器或應用程式停機對於各種規模的組織來說都是一個關鍵任務問題,從小型企業到企業級架構。對於大型公司來說,每年總成本可能高達數百萬美元!萬一伺服器或應用程式意外故障,不僅會對收入造成直接影響,長期業務營運、聲譽和搜尋引擎優化(SEO)也可能受到影響。在一些極端情況下,意外停機甚至迫使公司倒閉。那麼,IT 專業人員如何避免這種災難性事件呢?答案是透過識別停機的常見原因並建構有助於減輕這些問題的基礎設施和政策。本文將提供關於如何準備和避免停機,以及讓您的業務所依賴的應用程式持續運作的見解。
過載
毫不意外,伺服器過載是導致停機的常見情況。當應用程式在生產環境中實施之前首次進行測試時,它可能運行有效,並被認為是正確的解決方案。然而,一旦相同的解決方案上線並且用戶開始執行日常任務,未考慮到的需求會導致伺服器嚴重壓力,這可能導致性能急劇下降甚至組件故障。
應用程式會耗盡伺服器資源,例如記憶體、儲存空間和資料庫空間。如果沒有採取適當的預防措施,再結合大量用戶存取資料和執行流程,停機幾乎是不可避免的。增加伺服器記憶體容量將有助於加快資料傳輸速率,以減輕伺服器壓力。識別並消除資源/網路瓶頸,例如記憶體使用量、CPU 利用率和用戶連線,將有助於減輕過載情況。負載卸載有助於防止伺服器振盪(過載伺服器重新啟動後又再次過載的情況),以及級聯故障(在應用程式中一個系統或區域開始的事件,導致系統架構內產生滾雪球效應)。
冗餘和容錯
電子產品會故障。人們會拔掉不該拔的東西。意外事件會發生。這些都是企業的現實。即使有最好的計畫,您也不太可能避免生產中的故障。為了解決這個問題,關鍵任務應用程式中的所有內容都應至少具備「N+1」冗餘。N+1 表示您擁有應用程式所需的數量 (N) 加上至少一個始終運作的額外設備。在整個應用程式中實施 N+1 冗餘可最大限度地減少單點故障,並更好地確保業務連續性。
雖然預算和基礎設施限制可能會限制特定應用程式的實際操作,但 IT 團隊應盡其所能,至少達到 N+1 冗餘。對於在一部伺服器上就能正常運作的應用程式,要使其真正達到「N+1」冗餘和容錯,需要:使用兩部伺服器(可能採用「藍/綠」部署模型,請參閱這篇 TechTarget 文章以了解更多關於「藍/綠」的資訊),每部伺服器都配備冗餘電源供應器,連接到兩套獨立的 UPS 系統,運行在兩個獨立的交流電源迴路上,由兩部獨立的發電機備份,並在冷卻系統中內建冗餘。
人為錯誤
人為錯誤被 IT 專家廣泛認為是導致停機的主要原因之一,這種因素可能導致災難性的後果。2017 年 3 月,亞馬遜報告稱其簡單儲存服務 (S3) 在 2 月 28 日發生了網路服務崩潰,特別是其雲端和資料中心基礎設施業務,導致了 4 小時的服務中斷。Cyence 的分析發現,在此期間,標準普爾 500 指數公司因此蒙受了 1.5 億美元的損失(資料來源:商業內幕)。在展開調查以確定根本原因後,亞馬遜提供了以下回應(資料來源:亞馬遜):
「Amazon 簡單儲存服務 (S3) 團隊正在偵錯一個問題,該問題導致 S3 帳單系統的進度比預期慢。太平洋標準時間上午 9:37,一名經過授權的 S3 團隊成員使用既定的操作手冊執行了一個指令,該指令旨在移除 S3 帳單流程所使用的 S3 子系統中的少量伺服器。不幸的是,該指令的其中一個輸入錯誤,導致移除了比預期更多的伺服器。這些意外移除的伺服器支援另外兩個 S3 子系統。」
簡而言之,一名員工輸入了一個嚴重錯誤的字詞。這次停機的影響波及了迪士尼、Target 和 Nike 等知名線上零售商,導致網頁載入時間超過 30 秒,而平時通常只需幾秒鐘。S3 的設計目標是提供 99.999999999% 的耐用性,這只證明了人為錯誤即使是最精心設計的系統也能癱瘓。
不幸的是,對於人為錯誤問題並沒有單一的解決方案。對員工進行其特定角色的培訓並提醒他們關鍵任務流程仍然是預防錯誤維護的重要組成部分。然而,這不僅限於新員工,因為對現有長期員工進行重新培訓可以有效提醒他們行動的重要性。限制對敏感資源和系統的存取只會增加培訓的好處。只允許選定的、受過良好培訓的人員執行關鍵監控和任務有助於保護應用程式的基礎設施。實體和基於軟體的安全和監控有助於防止人為錯誤(或惡意使用者)事件的發生,並且是維持最大正常運行時間和性能的寶貴工具。此外,設計、實施和測試災難恢復計畫將在發生錯誤時最大限度地減少損失。災難模擬顯示實時的因果關係情境,以提高反應時間和判斷力,同時也是對使用者行動嚴重性的一個良好提醒。
電力
我們不能忽視為整個計算環境提供穩定高品質電力的重要性。2017 年 5 月,英國航空公司被迫取消 400 多個航班,導致 75,000 名乘客在一個假日週末滯留(來源:The Register)。隨後的調查揭示,問題源於一名技術人員拔下並重新連接電源時發生的電湧,這損壞了 IT 基礎設施的關鍵任務組件。儘管這個事件是人為錯誤和電力問題的結合,但它只會加強資料中心應用程式穩定電壓的價值。
不間斷電源供應器 (UPS) 系統是預防電力中斷導致停機的關鍵組件。由於有大量製造商提供不同級別的電源容量、可用電池備用時間和插座配置,網路和資料中心管理員可以選擇適合其需求的解決方案。線上雙轉換技術(將交流電轉換為直流電再轉換回交流電,消除有害的諧波失真、電壓波動和波形異常)等功能增加了另一層保護,可以延長連接設備的運作壽命。企業級裝置提供與 UPS 的網路通訊,實現電力和負載監控、電源事件的網路通知,以及透過可控制插座遠端存取負載電源管理。
發電機是容量較大的備用設備,主要關注設施的一般電力需求,但具有電腦級交流輸出的型號允許 UPS 將其用作公用電源的替代品,直到真正的電力問題得到解決。在某些應用中,電池備用系統只需要在停電期間提供少量運行時間,以便啟動發電機並為持續業務運作提供必要的組件電力。
高可用性伺服器
高可用性部署模型的基本構成要素是設計時考慮到正常運行時間的伺服器硬體。Premio 的高可用性伺服器設計時考慮到零停機時間。憑藉冗餘電源供應器、風扇、熱插拔 HDD 或 SSD 儲存槽、業界信賴的 Intel PCSD 伺服器主機板以及免工具設計等功能,Premio 的伺服器在設計和製造上都獨具特色,旨在最大限度地減少停機時間並在伺服器層面實現容錯。
總之,雖然沒有單一解決方案可以防止停機,但識別單點故障並以容錯為前提建構解決方案,可以幫助組織最大化正常運行時間和業務連續性。立即聯繫我們,開始建構您的「零停機」解決方案。我們提供廣泛的伺服器選項,以滿足各種計算設計需求,幫助開發具有高密度容量選項和業界領先處理速度的安全、穩定環境。
[vc_empty_space height="30px"][vc_column_text el_class="bp-maroon-solid"]
[/vc_column_text][vc_empty_space height="40px"]
