由“ hyper ”(極端,比平常更大)和“ scale ”(改變大小)這兩個詞組成,術語 hyperscale 代表了 IT 行業的可擴展性和可用性的黃金標準。具有此類基礎設施的數據中心可以無縫且經濟高效地運行世界上最繁重的工作負載,滿足無法在任何其他類型的設施中運行的用例需求。本文探討了超大規模數據中心的核心概念,并展示了它們與傳統托管設施的區別。我們還將解釋超大規模系統的工作原理,并向您介紹超大規模計算的主要特征(以及優勢)。
什么是超大規模?
超大規模是 IT 架構的擴展能力,可以自動、實時、無延遲地響應增加或減少的需求。這樣的基礎設施運行在數以萬計的相同大小的服務器上,這些服務器可以自動激活和停用以適應當前的需求。
超大規模系統背后的主要理念是為最苛刻的 IT 需求集提供最高效和最具成本效益的托管環境。這樣的基礎設施幾乎可以立即擴展,不僅可以從一臺服務器擴展到幾臺,還可以從幾百臺擴展到幾千臺。此功能對于托管波動和需要大量處理的服務至關重要,例如:
- 云計算。
- 視頻流。
- 社交媒體。
- 基于人工智能和機器學習的大型應用程序。
- 在線游戲。
超大規模計算完全依賴于水平擴展(或“向外擴展”)。該系統將更多相同大小的服務器添加到集群中,并在更大的設備池中分擔工作負載以滿足不斷增長的需求。這種策略不同于垂直擴展(或“向上擴展”),在垂直擴展中,您可以改進機器的規格以提高其性能(例如,為服務器添加更多內存或更好的CPU )。
那么為什么要水平縮放而不是垂直縮放呢?以下是主要原因:
- 使用相同的服務器可以標準化操作并簡化日常管理。所有設備都有相同的更新、安全補丁、操作系統等。
- 每臺機器都有一個用于垂直擴展的硬“上限”,之后就無法再進一步升級設備。
- 由于規模經濟,從長遠來看,小型、便宜的服務器更具成本效益。
- 依賴相同的服務器會帶來更一致的性能。
- 水平擴展不需要管理員讓機器離線來升級它們。
- 由相同大小的服務器組成的網絡很容易避免停機,因為如果一臺機器出現故障,相同的節點會接管工作負載。
什么是超大規模運營商?
超大規模運營商是一個或多個數據中心的所有者和運營商,這些數據中心容納超大規模所需的水平鏈接服務器。市場上最著名的超大規模提供商是三大領先的公共云提供商(AWS、微軟 Azure 和谷歌云)。像 Facebook 和 Apple 這樣的大公司也擁有以超大規模方式運行服務的設施。
以下是超大規模提供商和常規提供商之間的主要區別:
- 超大規模數據中心擁有數以萬計的服務器和數 PB 的數據存儲空間。相比之下,標準中心和服務器機房平均只有幾百到幾千臺服務器。
- 由于規模經濟和商品硬件的使用,超大規模供應商的成本結構較低。這些設施依賴于更便宜的服務器,而不是傳統數據中心中更復雜、更昂貴的機架。
- 得益于節能設計和先進的冷卻系統,超大規模服務器的每臺服務器功耗更低。
- 常規數據中心嚴重依賴手動配置和資源管理,而超大規模數據中心則采用高度自動化的配置、監控和日常操作。
- 常規數據中心提供的按需服務靈活性較低,并且需要更長的更改準備時間。
- Hyperscalers 在確保高水平的冗余和可用性方面投入更多。
- 平均而言,由于高度自動化,超大規模企業雇傭的 IT 員工較少。安全團隊成員的數量通常超過計算人員的數量。
- Hyperscalers 依賴標準化的模塊化設計,可以輕松擴展和升級。常規設施使用定制設計的解決方案,這使得擴展和升級變得困難且耗時。
雖然只有少數組織有資格成為超大規模企業,但這些設施中使用的一些技術正越來越多地用于小型數據中心,例如:
- 軟件定義網絡 (SDN)。
- 融合基礎設施。
- 微細分。
超大規模計算如何工作?
超大規模計算將數萬(或更多)小型、簡單的服務器組合在一起,并將它們橫向聯網。“簡單”并不意味著原始,只是服務器有一些基本的約定(例如,網絡協議)來制作它們:
- 易于聯網和管理。
- 反應靈敏,能夠滿足不斷變化的容量需求。
- 作為一個群體更容錯。
這些服務器在虛擬機 (VM)中運行應用程序,虛擬機是依賴軟件定義資源而不是專用硬件的計算環境。一臺服務器可以托管多個 VM 并使每個 VM 獨立運行,這允許工作負載在硬件之間移動而不會出現錯誤或減速。
每個超大規模網絡都包含一個負載均衡器,它不斷地重新分配計算、存儲和網絡資源。該設備管理所有傳入的網絡請求,并將它們路由到容量最大的服務器。平衡器持續監控每個服務器上的負載,根據當前需要處理的數據量打開或關閉它們:
- 如果負載平衡器檢測到對工作負載的需求增加,它會將服務器添加到當前的專用池中。
- 一旦需求下降,平衡器就會從池中移除服務器,要么關閉它們,要么將它們重新分配給另一個工作負載。
此過程實時進行,以最大限度地提高成本效益(對用戶和設施所有者而言)。自動化是超大規模計算的重要組成部分,因為不可能手動協調通常跨越一個設施的數千臺服務器。超大規模系統還需要頂層網絡來實現這種高度分布式和可擴展的架構。超高速、高光纖數網絡連接服務器、負載平衡器和所有互連的數據中心。
什么是超大規模數據中心?
超大規模數據中心是容納超大規模計算設備的設施。2021 年,官方公布的超大規模數據中心數量為 728 個。專家預測,到 2026 年,這一數字將達到 1000 個大關。
雖然沒有官方標準,但平均超大規模設施是:
- 至少 10,000 平方英尺(盡管有更大的設施,例如 Microsoft 的 Northlake 數據中心占地 700,000 平方英尺或 Apple 的 Mesa 數據中心占地 1.3 平方英尺)
- 擁有至少 5,000 臺專用服務器。
- 存儲數百拍字節 (PB) 的數據。
- 提供至少 40 Gbps 的網絡連接。
- 每年消耗超過50MW。
大多數超大規模系統在統一的設施網絡中運行,而不是在一棟建筑物中運行。這些數據中心群作為高度連接的集群運行。一些中心相鄰,而另一些則相距數千英里——這種距離使公司能夠:
- 降低局部停電和網絡攻擊的影響。
- 從附近的設施為所有客戶提供服務,以確保快速響應時間。
以下是超大規模數據中心的特征:
- 規模:超大規模數據中心是通常容納數萬臺服務器的大型設施。
- 可擴展性:超大規模數據中心內的設備有一個主要目標:盡可能快速且高度可擴展。
- 高度模塊化設計:這些設施依賴于精簡的硬件,可以輕松擴展。
- 更低的價格:這些設施利用規模經濟以低于常規數據中心對相同資源收取的費用提供服務。
- 范圍:超大規模數據中心始終是全球網絡的一部分,提供從世界任何地方訪問資源的途徑。
- 自動化:這些數據中心在配置、監控和管理資源時采用高度自動化。
- 冗余:設施采用多層冗余以確保高服務可靠性。
超大規模的好處
如果您有合適的用例,超大規模計算可提供其他托管解決方案無法提供的一系列優勢。以下是依賴超大規模計算的主要優勢:
- 沒有實際可實現的擴展上限,因此在高需求時不存在資源耗盡的風險。
- 由于頂層冗余會在出現錯誤時自動自我修復系統,因此最終用戶永遠不會遇到過長的加載時間或停機時間。
- 縮放會根據當前需求自動發生,因此無需不斷地管理環境和手動調整資源。
- 超大規模計算利用規模經濟來降低基礎設施、電力和冷卻成本。如果您想外包超大規模服務,請期望您的服務水平協議 (SLA)中的條款比您從典型數據中心獲得的條款更好。
- 向上和向下擴展的能力確保您避免任何不必要的開銷。
- 高度自動化使內部團隊無需維護和升級 IT 系統。組織釋放內部資源用于其他業務途徑,例如創新和創收。
- 您可以訪問范圍廣泛的按需計算資源(存儲、處理能力、網絡帶寬等)。該團隊可以不受傳統計算基礎架構的限制,快速部署新的應用程序和服務。
- 由于超大規模數據中心擁有比典型數據中心更多的服務器,因此這些設施將工作負載分配到更多設備上以避免出現過熱問題。工作負載往往比傳統托管環境更加平衡。
- 超大規模計算可輕松應對 AI、ML 和IoT等尖端技術的高級處理挑戰。
- 雖然超大規模系統中的所有服務器都是相同的,但其中的虛擬機卻不同。用戶選擇操作系統和首選編程語言,因此團隊可以創建適合其用例的自定義系統。
對于大多數用例來說太多了,但對于某些用例來說是唯一的托管選項
超大規模是一項昂貴且復雜的技術,大多數組織無法負擔或無法從中受益(通常兩者兼而有之)。但是,特定的大規模用例(如云服務或社交媒體)只能通過超大規模計算高效運行。沒有其他設置可以滿足他們令人難以置信的可擴展性要求,因此隨著世界聯系越來越緊密以及公司對數據中心外包越來越滿意,預計會看到更多的超大規模。