無懼多家公有雲業者接連爆發「機瘟」，Akamai連續4年守住平臺服務的可靠度

圖片來源:

Akamai

全球IT服務與資料中心在2025年大規模當機事件頻傳，令人意外的是，當中不乏許多企業與組織重度依賴的大型公有雲業者，如Cloudflare、AWS、Azure、Google Cloud，這些事件不僅嚴重影響這些服務商的商譽，也促使眾人反思是否過度高估公有雲的可靠度。然而，在一連串大規模服務停擺事故發生期間，仍有大型雲端業者正常運作，而且已建立4年以上未發生重大當機的紀錄，這家廠商正是以提供CDN服務、資安服務與邊緣雲端服務著稱的Akamai。

在本週舉行的年度記者會上，Akamai副總裁暨亞太區總經理李昇表示，他們協助全球指標性企業達成99.999％（5個9）的高可靠度標準，他強調可靠度與可用性是非常關鍵的，因為作為平臺化的服務，Akamai除了功能面的發展，每年也投入很多資源，不停提升整個平臺的可用性、穩定性、韌性、靈活度，因為隨著平臺持續添加新的功能型應用，架構勢必越來越複雜，每做一次版本更新或升級，也將面臨更多風險，越來越難控制，對此Akamai會確保整個平臺達到5個9的可靠度，而這樣的服務表現優於同類廠商。

對比其他公有雲業者的可靠度服務等級，多數廠商的設定在99.9％與99.99％之間。例如，就CDN而言，AWS的Amazon CloudFront是99.9％，Azure Front Door是99.99％，GCP Cloud CDN是99.95%。

李昇說，大家很少在網路上看到Akamai發生重大事故的消息，但對於Akamai而言，沒消息就是好消息，他重申背後有強大的平臺工程團隊，持續調校與維護全球網路服務，使得Akamai服務的可靠度在業界獲得很多認可。

剖析發生全球IT大當機事故的原因，以及得以倖免於難的關鍵

Akamai做對了哪些事情？Akamai資深技術顧問王明輝表示，早期他們開發CDN架構的時候，就將可靠度作為公司發展的重要DNA，雖然在2025年很多大型的平臺出現中斷的問題，影響很多客戶的營運，但Akamai從2021年7月至今，將近5年皆未發生平臺斷線的事件，對於大型的公有雲來說，是個非常難得的紀錄。

他坦言，這並不代表Akamai開發的軟體並沒有任何bug，任何大型的雲平臺一定都會有，但問題在於能否有效控制、監控、自我修復，將bug的影響控制在最小的範圍裡面，也是大型雲平臺必須追求的方向。

為何會發生大型雲端服務中斷？王明輝認為有四大原因。

首先，是軟體有缺陷，競態條件、錯誤配置或邏輯缺陷引入了不穩定性。第二，後續發生檢測機制失效的問題：原本應該監控bug的檢測系統，卻臨時失效了。第三，在這樣的情況下，連鎖反應開始擴散到上下游的不同元件。第四，最終造成整個系統的崩潰（無法運作）。系統一旦出問題，平常不會連線或存取的使用者，可能此時反而都想要進來看看。例如，出現某廠商系統或服務斷線的傳聞，全臺灣可能有一半以上IT的人員都會嘗試連線，確認是否真有其事，但其實這會造成更大的網路流量負擔，加速整體平臺崩潰。

他強調，Akamai設計可靠度架構時，要做的並非防止bug產生，因為bug就是會發生，而是設計有效偵測這類狀況且能自我修復的系統。這當中有五個主要的核心要素，第一是建立具有高可用性的架構，Akamai透過全球設置大量邊緣節點，防止單一節點故障的問題；第二是設計能自動發現與修復問題的系統，而且這個系統本身也必須可靠，並非平臺用了高可用性架構之後，檢查運作狀況的系統就能鬆懈，因為這類系統一旦失效、無法及時發現問題的時候，也會導致嚴重的影響；第3是有效治理，在大型平臺裡面，有非常多的開發團隊進行業務的開發，如何促使多個IT開發者遵循相同的治理策略，並且採用最佳實踐化的方式設計架構，會是相當困難的挑戰，因此在Akamai的企業文化中，會自我要求採用高可用性的思維方式，去設計所有的軟體架構。

第四是變更的安全性。有別於其他雲廠商，Akamai若要執行任何的軟體變更作業，都會在小範圍先試行，王明輝表示，公司在全球有超過4千個節點，會在一部分節點進行間接發布，一旦出現問題，他們可以及時發現與阻擋，並且實施組態設定復原（configuration rollback）的機制，將影響的範圍與程度控制到最小，提升危機管理能力，而且，這樣的概念也跟微分段（Micro-segmentation）相通，因為在微分段的實作上，同樣會設法將這個風險把它控制到最小範圍的部分，就不會造成企業整體崩壞的狀況。

第五則是實踐企業可靠度文化，Akamai 副總裁暨技術長James Kretschmar在去年The ITPro Procast探討雲端大當機的專訪強調，建立可靠度的文化至關重要，如果我們正在做上述的事情，而且每天都這麼做，就會自然而然地成為組織的文化與常態，因此，我們需要營造這種文化，而且有時做著做著就達到目標。

呼籲各界認知到平臺可靠度不只是特性與承諾，更牽涉到客戶的業務成敗

關於2025年發生全球多家雲端服務大當機事故，Akamai營運長暨雲端科技事業群總經理Adam Karon曾有感而發，表明他們也曾經歷類似狀況，直言系統不可靠的代價不僅是技術層級的故障，而是影響整個組織的業務挫敗與連鎖反應。

他認為，隨著技術不斷演進，可靠度越來越重要，但兩者的差距正在加大而非縮減，Adam Karon也特別點出IT大當機必然且頻繁發生的原因。他用二分法區隔兩種IT平臺，一種是定義規模與穩定性的核心平臺，將可靠度視為商業模式的根本，聚焦可靠度創新的精益求精，提供可預測的效能、安全性、可用性，其他則是將本身視為商品的平臺，業者積極宣傳本身的快速創新與持續部署，目的是不斷吸引眾人關注與引起興趣，並輕忽可靠度，視其為成本中心。

有些企業為了使用成本更低廉的雲端服務，而接受每一季中斷多次服務的代價，但Adam Karon認為，認可線上業務停擺每季停擺一小時的收入損失，這不僅意味著組織承擔了技術債，也代表組織向競爭劣勢低頭，他強調，身處顧客體驗決定誰是市場贏家的時代，可靠度不該被犧牲。

最後他重申完美的持續運作（Perfect uptime）並不存在，但接近完美（near perfect）與夠好（good enough）的差距，可透過收入損失金額與不滿意服務的用戶數量等量化指標得知的，當然，對於品牌傷害的影響更是難以估計，而Akamai的立場是提供最佳的可靠度，即使這麼做將使公司面臨更困難的挑戰、更昂貴的成本負擔、更複雜的技術架構設計，但他們很清楚客戶的業務不能只是建立在彼此的承諾之上，而要仰賴的是持續穩定運作的平臺。

剖析發生全球IT大當機事故的原因，以及得以倖免於難的關鍵

呼籲各界認知到平臺可靠度不只是特性與承諾，更牽涉到客戶的業務成敗

熱門新聞