像亞馬遜這樣的超大型數據中心運營商,在市場上已經找不到適合他們自身用的數據中心,或者他們認為自己建設數據中心會比使用市場上的更為便宜的時候,他們會考慮自己建設數據中心。建設期間會將一項技術內置在工程建設中,避免工程承包商描述為在電氣開關設備供應商在對其產品設計中錯誤的定義優先級而準備。

正是這個問題導致去年夏天達美航空數據中心宕機,最終支付航空公司1.5億美元的損失,還有2013年在超級碗期間的臭名昭著的停電事件。 亞馬遜網絡服務副總裁兼工程師約翰·漢密爾頓(John Hamilton)在其職業生涯中,同樣遇到過這類問題。
他在個人博客的中寫道:“這種大規模數據中心運營中,我自己經歷過過兩次。” 當這些失敗發生的時候,那時候,他并不清楚這種是由于這種原因導致故障發生,這是發生在在他加入亞馬遜之前,在微軟工作期間發生的。
漢密爾頓并沒有在他的博客文章中引用達美航空,但去年夏天只有一家主要的航空公司數據中心中斷,隨后航空公司后公布了賠償達到九位數。
亞馬遜處于這種考慮的設計避免這種停電的技術是固件,它決定了當數據中心電源中斷時電氣開關應該做什么。漢密爾頓說,典型的供應商固件優先考慮防止損壞費用昂貴的備用發電機,從而避免完全的數據中心中斷。 亞馬遜(也許大多數其他大型數據中心運營商)都傾向于冒著失去100萬美元設備的風險,而不會去冒大面積停電宕機風險。
當公共設施停電(大多數時候都是這種情況)發生時,開關柜等待幾秒鐘,以防公用事業
電力回來(也是最常見的情況),如果沒有,開關柜將會啟動發電機,而數據中心開始運行
UPS系統
存儲的能量。 一旦發電機穩定下來,開關設備就成為IT系統的主要來源。
去年的達美航空數據中心停電歸因于開關柜“鎖定”在亞特蘭大航空公司的發電機。 這是大多數開關柜在數據中心輸入電力
供電中感測到主要電壓異常時設計的。 發電機短路通常會導致發電機炸飛,因此開關柜通常將發電機開關處于鎖定狀態,避免發生這類事故。
在大多數情況下,這個錯誤發生數據中心外部,因此這這類事故除了造成數據中心業務中斷之外,沒有其他英雄,Hamilton寫道。 (他目睹的兩件事是由于汽車撞倒了傳輸電纜導致公共電源中斷所造成的)。在極少數情況下,數據中心內部短路,斷路器斷開,
服務器切換到二次電源,或(如果配電系統中的故障較高或斷路器未能打開),發電機未鎖定時可能會損壞發電機。
“我寧愿投入低于100萬美元的風險,而不是保證負荷將下降。 他說:如果只有一個客戶可能會虧損1億美元,那么儲存發電機就不會像是正確的優先事項。“
當亞馬遜工程師要求他們的開關柜供應商從其固件中消除鎖定狀況真個固件時,是他們應了解到取消后帶來的潛在的設備故障 – 但供應商卻拒絕取消,亞馬遜只能自行生產固件。
漢密爾頓寫道:“我很幸運能夠在一個大規模的運營商公司工作,因為定制的緣故,我們早在幾年前就解決這種特定的故障模式。